臺灣醫療人工智慧之負責任實踐:從國際倫理框架到臨床落地治理之全生命週期分析

社群分享

1. 緒論:醫療 AI 從技術導入邁向治理成熟期的戰略轉型

隨著資訊技術與大數據運算能力的指數級成長,臺灣醫療體系正經歷一場前所未有的範式轉移,人工智慧(AI)已由單純的實驗室驗證階段,正式轉向深度的臨床整合階段。在這一進程中,臺灣醫療人工智慧的發展已正式跨越了技術導入的初創期,邁入所謂的「治理成熟期」。作為醫療資訊政策與倫理的觀察者,我們必須深刻體認到,單純追求算法的效能指標,如準確率或受試者工作特徵曲線下面積(AUC),已不足以支撐技術的永續落地。當前醫療治理的核心戰略,在於如何將抽象的「倫理原則」轉化為具體的「技術與行政實踐」。這正是衛生福利部推動「負責任人工智慧」(Responsible AI, RAI)作為重建醫病信任戰略基石的必然選擇,其核心初衷在於將過去被視為形容詞的倫理概念,徹底轉化為可執行、可驗證且具備約束力的「動詞」。這種治理轉型的迫切性源於 AI 技術本質上的局限性,即演算法缺乏人類的「心」——亦即同理心、正義感與利他精神。若缺乏負責任的治理框架,系統可能因過度追求經濟效率而產生嚴重的倫理偏誤。在某些極端的模擬情境中,若 AI 系統僅基於資源優化進行評估,當患者的長期醫療支出被判定為過高時,系統竟可能產生「勸導病人結束生命以節省費用」的非人道決策建議。這種風險揭示了技術黑盒若無人道價值干預,極可能引發臨床風險與倫理危機。因此,負責任 AI 的建構本質上是為了在自動化流程中植入人類價值的防火牆。透過將「公平」轉化為偏誤檢測程序,將「安全」轉化為動態監控機制,臺灣不僅回應了國內臨床需求,更精準接軌了國際上對於高風險人工智慧治理的共識,為臺灣本土化框架奠定了穩固基石。

2. 全球倫理基準與臺灣 AI 基本法倫理原則之整合架構

在建構臺灣本土化的醫療 AI 治理體系時,整合全球權威倫理框架是確保技術具備國際競爭力的關鍵。世界衛生組織(WHO)針對健康領域提出的六大倫理原則,為全球醫療治理設定了道德底線,涵蓋保護自主權、促進人類福祉、確保透明性、當責制、公平性以及永續發展。為了將這些宏觀原則具體落地,臺灣衛福部進一步深化了 FAVES 框架,即公平(Fair)、適當(Appropriate)、確實(Valid)、有效(Effective)以及安全(Safe)。這五大要素構成了一個嚴密的價值網格,並與國際間如 FUTURE-AI 等多元框架進行戰略性整合,確保模型不僅在內部數據中表現優異,更能在真實世界的臨床路徑中產生顯著健康益處,同時保障患者的知情權與醫師的專業自主權。這些國際標準最終被精準對接並對譯為臺灣法制推動中的七大倫理原則。首先是「自主性」,強調 AI 僅作為輔助工具,嚴禁在無人類控制下自主決策,這深刻反映了人類具備道德直覺與對正義追求的本質,與僅基於機率分佈的 AI 決策有著天壤之別。其次,「透明性」要求決策建議必須具備可解釋性分析,讓醫師掌握判斷依據。「當責性」則重申醫療專業人員始終是責任主體。「公平性」要求訓練資料涵蓋多元族群並執行偏誤檢測,防止模型產生偏見。此外,「安全性」涵蓋資安與病患權益,「隱私保護」貫穿資料處理全過程,而「永續性」則要求 AI 必須具備具體的臨床或行政效益。這些原則的本土化整合,最終體現為臨床介入的透明性揭露,這不僅是技術開發者的義務,更是醫療機構維護倫理尊嚴的關鍵程序,而這些抽象原則必須透過具體的組織架構方能實踐,進而導入了「負責任 AI 執行中心」的角色。

3. 臺灣負責任 AI 執行中心 (R-AI Hub) 之建構與三大核心任務

為了將願景轉化為行動,衛福部資訊處於 2024 年領先全球,推動「負責任 AI 執行中心」(R-AI Hub)計畫,其目標在於建立可操作的臨床標準。該中心被賦予了三大核心任務,首要任務是成立「獨立審查委員會」。這是一個跨專業的協作機制,醫院端須透過此委員會針對每一項欲落地的 AI 產品進行嚴格審核,確保其符合隱私規範、資安標準並具備實質臨床效益。這種跨領域的審查模式能有效過濾掉僅具技術熱情卻缺乏臨床價值的應用,確保技術演進始終對齊醫療品質。第二大任務在於建立透明性指標與可解釋性分析,消除「演算法黑盒」疑慮,將 AI 的開發詳情與侷限性全面公開。第三大任務則是推動「在地測試」與「全生命週期管理」。AI 模型對資料極其敏感,即便通過國際認證的模型,仍可能因臺灣本土資料特性(如盛行率或人種差異)而產生誤差。因此,醫院在導入初期必須使用院內具代表性的標準資料進行在地化測試,確認其性能達到預期。此外,由於醫學數據隨時間改變,模型性能可能衰減,因此必須建立週期性監測與退場校正機制。在這些任務中,透明度揭露被視為最關鍵的技術手段,它是橋接演算法複雜性與醫師臨床判斷的關鍵橋樑,將 AI 從不可控的黑盒技術轉化為受監管的醫療儀器。

4. 醫療 AI 透明性指標:HTI-1 規範與九大揭露準則之深度解析

透明度在負責任 AI 的架構下,不應僅被視為技術說明,而應視為一種「可審計的資產」。基於美國衛生及公共服務部(HHS)透過《21 世紀法案》制定的 HTI-1 規範,臺灣制定了九大透明性揭露指標。這些指標如同 AI 的「履歷」或臨床「仿單」,旨在消除信任危機,讓醫師在臨床決策時能精準評估 AI 的建議。以下詳述這套準則的核心維度與內容。

編號揭露項目揭露原則與核心內容
1介入詳情及輸出清楚定義產出的具體內容,如標記位置、風險評分(0-100 分)或分類建議,指引醫師解讀結果。
2介入目的說明 AI 的臨床用途(如輔助診斷、分流或篩查)及其預期解決的具體臨床痛點。
3警告與範圍外使用明確限制條件,告知醫師不適用情境(如特定機型、非適應症族群),並強調不得獨立作為診斷工具。
4開發詳情及輸入特徵揭露訓練資料來源、特徵維度(如年齡、像素、密度、腫塊)及採用的算法架構(如 CNN)。
5確保公平性的過程詳述如何檢查並減少演算法偏見,確保在不同種族、性別或年齡層表現的一致性。
6外部驗證過程展示在獨立真實世界數據上的表現,包含跨中心數量、硬體製造商分佈及組織學類型。
7量化表現指標提供靈敏度、特異性、AUC 等具體統計數據,作為醫師評估系統效能的基準。
8持續維護與監控描述部署後的技術支援、監控團隊及更新計畫,確保系統在臨床現場的穩定性。
9更新與持續驗證計畫規定再訓練頻率與定期驗證門檻,以應對醫療環境變遷導致的性能波動。

從戰略影響的角度來看,這些指標中最具關鍵意義的是「警告與範圍外使用」。它直接界定了 AI 的臨床邊界線,明確告知醫師該系統在特定影像類型或族群中的侷限性,這不僅是釐清法律責任的依據,更是預防醫療疏失的重要防線。當醫師掌握了這些透明化資訊,便能行使更為精確的臨床裁量權。然而,指標的制定僅是框架,必須透過實際案例方能驗證其效力,特別是在處理具備高度複雜性的醫學影像時,細顆粒度的揭露更是不可或缺。

5. 臨床實務案例剖析:乳房 X 光影像 AI 之透明化與可解釋性實踐

以「乳房 X 光影像 AI 輔助診斷系統」為具體案例,該系統展現了高效能演算法在臨床落地時必須面對的嚴謹要求。在開發詳情上,該技術採用卷積神經網絡(CNN)分析 2D 全數位乳房攝影(FFDM)與 3D 數位乳房斷層攝影(DBT)影像,輸入特徵涵蓋病灶密度、結構不對稱性及病患乳房密度等關鍵參數。在外部驗證環節,該系統展現了教科書級的嚴謹度,驗證數據來自歐盟與美國多個臨床中心,涵蓋了 Hologic, GE, Philips, Siemens 與 Fujifilm 等主流硬體製造商,確保跨平台的相容性。驗證樣本極具規模,包含 7,882 例無癌症檢查與 1,240 例經病理證實之癌症檢查。在癌症樣本中,組織學類型的細緻分佈——如浸潤性導管癌(60.5%)、原位導管癌(25.9%)及浸潤性小葉癌(9.0%)——為醫師提供了判斷模型信心程度的關鍵座標。其量化指標表現極佳,準確率達 95%,靈敏度 94.7%,特異性 90%,AUC 高達 0.949,召回率則穩定在 92% 的水準。然而,真正體現「負責任」治理精神的,是對於技術侷限性的開誠布公。研究顯示,儘管總體性能優異,該演算法在黑人患者及 71 至 80 歲的高齡群體中,偽陽性風險顯著高於平均值;相較之下,在亞洲患者與 41 至 50 歲的年輕族群中表現較穩定。為了降低族群偏誤帶來的衝擊,必須應用「臨床可解釋性分析」。透過「熱區圖(Heatmap)」標示 AI 關注的可疑病灶區域,或利用「思考鏈(Chain of Thought)」呈現生成式 AI 的判斷依據,醫師能直觀判斷 AI 的邏輯是否符合醫學專業,而非盲目接受一個數值結果。這證明了單一時間點的靜態評估是不夠的,必須延伸至系統上線後的持續監控,以應對隨時間產生的效能衰減。

6. 動態治理機制:數據漂移監控與 AI 全生命週期之有效性驗證

醫療 AI 並非靜態產品,其性能會隨時間產生「數據漂移(Data Drift)」,這可能是由攝影設備更新、臨床路徑改變或患者分佈變化所導致。因此,AI 必須接受「定期回診」。衛福部強調負責任的治理必須覆蓋全生命週期,核心機制在於執行隨時間漂移的監測計畫。在確定最低準確率的戰略佈局上,我們採納了四重複合路徑:從廣泛的文獻回顧建立基準,到跨領域專家的共識凝聚,再輔以統計學上信賴區間下限的底線設定,最後則回歸至風險分析法以評估性能下滑對患者的潛在損害。以平均動脈壓(MAP)預測模型為動態監測案例,當系統監測顯示數據分佈開始偏離原始訓練邊界時,治理機制便會自動觸發。具體執行門檻如下表所示。

運行狀態 性能指標門檻 (靈敏度) 處置措施與機制
正常運作 ≥ 90% 持續臨床服務,執行每年隨機抽取 300 例真實影像評估。
觸發警戒 < 85% 立即暫停 AI 服務,啟動故障排除、原因分析與偏誤修正。
重啟服務 優化後恢復至 > 90% 經自動化重新訓練與品質管理審核後,重新上線服務。

自動化重新訓練程序在風險控管中扮演重要角色。當性能下降至警戒門檻時,開發團隊必須收集具備當前環境特徵的臨床影像資料進行模型優化。這種擁抱動態演進的治理哲學,將「安全」與「有效」從產品標籤化為持續的監督行為,確保醫療 AI 在生命週期的每一天都是負責任的。這不僅是對技術可靠性的堅持,更是對臨床醫師與患者最實質的安全承諾,體現了從靜態審查向動態韌性生態系統的躍升。

7. 結論與展望:建立「教導而非審查」的治理生態與國際接軌

總結臺灣負責任 AI 的實踐歷程,其成功的核心關鍵在於貫徹了一種「輔導(Coaching)而非審查(Censoring)」的治理哲學。我們深知過度的行政審查可能扼殺創新,因此治理中心的目標是透過提供標準化框架與透明度模板,引導研發者在開發初期就植入 FAVES 原則。在這樣的治理生態中,「首席醫療人工智慧官(CMAO)」的戰略角色至關重要,他們作為技術團隊、臨床科室與政策監管者之間的橋樑,確保 AI 演進始終對齊醫療品質的核心目標。臺灣亦積極參考波士頓兒童醫院與 CHAI(健康 AI 聯盟)等國際跨界合夥模式,建立包含同儕審查、LLM 性能評估與 KPI 設定的多方參與機制,致力於成為全球醫療 AI 治理的最佳實踐場域。展望未來,臺灣在醫療 AI 治理上的成就已在國際舞台嶄露頭角。從世界醫學協會(WMA)《台北宣言》的倫理框架貢獻,到在世界衛生大會(WHA)分享臺灣經驗,臺灣正逐步成為全球醫療 AI 治理的典範。技術的進步應當是溫暖且具備同理心的。當我們在自動化流程中植入正義感與人文關懷的防火牆,智慧醫療才能真正與人類共融。透過將倫理形容詞轉化為實踐動詞,臺灣不僅在擁抱前瞻科技,更在守護醫療的人文精神,讓 AI 賦能醫師回歸對患者的直接關懷,為下一代的智慧醫療奠定堅實的倫理與技術基石。

探索更多來自 衛生福利部部落格 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading