人群大樣本驗證醫療AI

人工智慧（AI）在近年來快速演進，從早期的「推論型人工智慧」，進展到現在的「生成式人工智慧」，甚至朝向未來的「代理人人工智慧」。在醫療領域，AI已逐步成為醫師的助手，不僅可以輔助診斷與疾病風險預測，還能支援困難病例的分析與判讀。未來，AI更有可能成為醫師的延伸「手足」，根據病人的抽血結果與治療反應，提供動態決策支援，提升照護品質。

目前醫療上最成熟的AI應用主要集中在「診斷工具」，包括協助判讀眼底影像、心電圖、電腦斷層與超音波等，這幾年來已有長足發展。但如果進一步了解AI的開發與驗證方式，就會發現目前仍缺乏統一且嚴謹的驗證標準。

目前多數AI模型的訓練都是從一家醫學中心，或是特定開源的標準資料庫開始，這些資料多以健康人與病人之間的差異為基礎，來建立模型的判別邏輯。換句話說，這些推論型AI主要是靠「記憶」而非「推理」能力運作。舉例來說，若AI在台大醫院蒐集了1000份骨折X光與1000份正常X光進行訓練，確實可以準確辨識出骨折的特徵。但若遇到骨質疏鬆、退化性關節變形、甚至骨釘手術後的X光，AI就可能無法準確判斷，產生誤差。

人類醫師雖然在訓練階段也未必看過所有變異的骨折影像，但可以透過對症狀、影像角度與背景知識的整合推理，做出準確診斷。AI卻無法像人類般靈活推理，它只能記憶大量既見的影像樣態，因此若某些樣態未被納入訓練資料中，就無法做出準確判斷。這就像學生只背考古題，遇到題型稍變就不會解答一樣。雖然AI的推理能力不如人類，但它的記憶容量卻遠超人類。如果能透過大規模資料收集，涵蓋各種骨折與族群樣態，就有機會讓AI在臨床中發揮穩定的診斷效能。因此，AI模型是否具備「跨族群一致性」與「廣泛適用性」，其實仰賴的是驗證階段是否有良好的大樣本支持。

過去AI開發太過重視演算法創新，但若只靠小樣本開發出的AI模型，未經人群大樣本驗證，就無法保證其在不同層級醫院、不同族群、不同疾病情境下都有穩定表現，也容易導致偏誤與不公平的醫療照護。

為了解決這個問題，目前美國FDA也要求AI驗證需涵蓋不同年齡、性別與族群的大樣本分佈，以確保其普遍正確性。但這對AI開發者而言是極大挑戰，因為要自行蒐集具代表性的大型資料集難度甚高。因此，台灣衛生福利部特別設立了四個「AI取證驗證中心」，目的就是要協助AI開發者，無論來自學術界或產業界，蒐集符合人群樣本分佈的大樣本資料來進行模型驗證，加速取證。

這四大驗證中心的特色包括：
結合周邊多家醫療院所，跨體系、跨層級進行合作；
設有共同的倫理審查機制與資料治理架構；
提供標準化驗證流程與單一聯絡窗口；
與TFDA（食品藥物管理署）緊密合作，協助業者取得法規取證。

整體驗證流程如下：
1. 初步顧問：AI開發者先與TFDA AI輔導中心洽詢，了解法規規範與預期驗證要求（如準確性門檻、樣本數等）；
2. 驗證設計：參考TFDA顧問意見，與外部驗證中心共同設計驗證研究；
3. 資料協助：驗證中心協助蒐集跨族群、跨層級的醫療資料；
4. 模型修正：若模型表現不如預期，驗證中心可提供去識別化資料（約10–15%）協助模型修正；
5. 成果應用：驗證成功的結果可用於TFDA取證，也可投稿至國際期刊發表，提升模型可信度與國際能見度。

目前國際上尚未有如台灣這樣，建立跨中心聯盟、標準化流程、單一窗口服務的AI外部驗證系統，台灣的四家驗證中心在過去一年已陸續執行多項驗證工作，建立的標準流程，成果豐碩。

我們希望這條路的發展，就像陳適安院長所說的，計畫結束後，國家智慧醫療AI取證就會流程標準化，不再是智慧醫療發展上的絆腳石。

相關文章

迎接春嬌，長照客服的數位阿凡達

世衛行動團台灣在國際數位健康躍升的角色

臺灣醫療人工智慧之負責任實踐：從國際倫理框架到臨床落地治理之全生命週期分析

探索更多來自 衛生福利部部落格 的內容

探索更多來自衛生福利部部落格的內容