人群大樣本驗證醫療AI

社群分享

人工智慧(AI)在近年來快速演進,從早期的「推論型人工智慧」,進展到現在的「生成式人工智慧」,甚至朝向未來的「代理人人工智慧 」。在醫療領域,AI已逐步成為醫師的助手,不僅可以輔助診斷與疾病風險預測,還能支援困難病例的分析與判讀。未來,AI更有可能成為醫師的延伸「手足」,根據病人的抽血結果與治療反應,提供動態決策支援,提升照護品質。

目前醫療上最成熟的AI應用主要集中在「診斷工具」,包括協助判讀眼底影像、心電圖、電腦斷層與超音波等,這幾年來已有長足發展。但如果進一步了解AI的開發與驗證方式,就會發現目前仍缺乏統一且嚴謹的驗證標準。

目前多數AI模型的訓練都是從一家醫學中心,或是特定開源的標準資料庫開始,這些資料多以健康人與病人之間的差異為基礎,來建立模型的判別邏輯。換句話說,這些推論型AI主要是靠「記憶」而非「推理」能力運作。舉例來說,若AI在台大醫院蒐集了1000份骨折X光與1000份正常X光進行訓練,確實可以準確辨識出骨折的特徵。但若遇到骨質疏鬆、退化性關節變形、甚至骨釘手術後的X光,AI就可能無法準確判斷,產生誤差。

人類醫師雖然在訓練階段也未必看過所有變異的骨折影像,但可以透過對症狀、影像角度與背景知識的整合推理,做出準確診斷。AI卻無法像人類般靈活推理,它只能記憶大量既見的影像樣態,因此若某些樣態未被納入訓練資料中,就無法做出準確判斷。這就像學生只背考古題,遇到題型稍變就不會解答一樣。雖然AI的推理能力不如人類,但它的記憶容量卻遠超人類。如果能透過大規模資料收集,涵蓋各種骨折與族群樣態,就有機會讓AI在臨床中發揮穩定的診斷效能。因此,AI模型是否具備「跨族群一致性」與「廣泛適用性」,其實仰賴的是驗證階段是否有良好的大樣本支持。

過去AI開發太過重視演算法創新,但若只靠小樣本開發出的AI模型,未經人群大樣本驗證,就無法保證其在不同層級醫院、不同族群、不同疾病情境下都有穩定表現,也容易導致偏誤與不公平的醫療照護。

為了解決這個問題,目前美國FDA也要求AI驗證需涵蓋不同年齡、性別與族群的大樣本分佈,以確保其普遍正確性。但這對AI開發者而言是極大挑戰,因為要自行蒐集具代表性的大型資料集難度甚高。因此,台灣衛生福利部特別設立了四個「AI取證驗證中心」,目的就是要協助AI開發者,無論來自學術界或產業界,蒐集符合人群樣本分佈的大樣本資料來進行模型驗證,加速取證。

這四大驗證中心的特色包括:
結合周邊多家醫療院所,跨體系、跨層級進行合作;
設有共同的倫理審查機制與資料治理架構;
提供標準化驗證流程與單一聯絡窗口;
與TFDA(食品藥物管理署)緊密合作,協助業者取得法規取證。

整體驗證流程如下:
1. 初步顧問:AI開發者先與TFDA AI輔導中心洽詢,了解法規規範與預期驗證要求(如準確性門檻、樣本數等);
2. 驗證設計:參考TFDA顧問意見,與外部驗證中心共同設計驗證研究;
3. 資料協助:驗證中心協助蒐集跨族群、跨層級的醫療資料;
4. 模型修正:若模型表現不如預期,驗證中心可提供去識別化資料(約10–15%)協助模型修正;
5. 成果應用:驗證成功的結果可用於TFDA取證,也可投稿至國際期刊發表,提升模型可信度與國際能見度。

目前國際上尚未有如台灣這樣,建立跨中心聯盟、標準化流程、單一窗口服務的AI外部驗證系統,台灣的四家驗證中心在過去一年已陸續執行多項驗證工作, 建立的標準流程,成果豐碩。

我們希望這條路的發展,就像陳適安院長所說的,計畫結束後,國家智慧醫療AI取證就會流程標準化,不再是智慧醫療發展上的絆腳石。

探索更多來自 衛生福利部部落格 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading