網易首頁 > 網易號 > 正文申請入駐

柳葉刀子刊：評估AI預測模型性能的常見指標和可視化圖形

2026-01-05 19:47:31　來源: 醫咖會

北京舉報

分享至

2025年12月，《Lancet Digital Health》發表了一篇文章“Evaluation of performance measures in predictive artificial intelligence models to support medical decisions: overview and guidance”，對評估AI預測模型性能的幾大類指標進行了總結。

在前一篇推文中，我們介紹了幾大類指標的概念：1)區分度（discrimination）、2)校準度（calibration）、3)整體性能（overall performance）、4)分類（classification）、5)臨床效用（clinical utility）。

詳見：

接下來仍以ADNEX模型為例（該模型預測女性卵巢腫瘤的惡性概率），具體聊一聊這些指標以及相應的可視化圖形。所有R和Python代碼，均已公開于GitHub代碼倉庫，鏈接如下：

https://github.com/benvancalster/PerfMeasuresOverview

前文提到，性能指標應具備兩項關鍵特征：（1）該指標應為“恰當”（proper）的指標；（2）該指標應明確聚焦于是反映統計價值還是決策分析價值。不具備第一項特征的指標不可信賴，缺乏第二項特征的指標則含義模糊、難以解釋。下面在討論各指標時，會提及到這兩項特征。

區分度（Discrimination）

常見的區分度指標是一致性概率（concordance probability）或C統計量（C-statistic）。對于二分類結局，C統計量等于受試者工作特征曲線下面積（AUROC），但當事件發生率遠遠偏離0.5時，一些研究者建議不要使用AUROC。有觀點認為，在罕見事件時，AUROC具有誤導性或過于樂觀。

作為ROC曲線及AUROC的替代方案，常推薦使用精確率–召回率曲線（PR曲線）及其曲線下面積（AUPRC）。另一種替代AUROC的指標是部分AUROC（pAUROC），關注ROC曲線中特異度或靈敏度達到某個最低可接受水平的部分。AUROC、AUPRC和pAUROC均為“半恰當（semi-proper）”指標。

區分能力對預測性AI模型至關重要，但僅憑AUROC一項指標不足以判定一個模型是否優秀或實用。使用PR曲線或ROC曲線進行可視化展示是可以接受的，但根據本文作者的經驗，這些圖所提供的信息并不比匯總性指標（如AUROC）或相關的臨床效用指標（如凈效益net benefit）更有價值。

下圖1展示了本案例研究（ADNEX模型）的ROC曲線和PR曲線，基于“靈敏度低于0.8不可接受”這一觀點（但該觀點未經證實），展示出了pAUROC。

ADNEX模型的AUROC為0.91（95%CI 0.89–0.93），AUPRC為0.89（95%CI 0.86–0.91）。去掉靈敏度低于0.8的部分后，pAUROC為0.14（95%CI 0.13–0.15）。

圖1. ADNEX模型的ROC曲線（A）、PR曲線（B）和pAUROC（C）

校準度（Calibration）

統計學和機器學習文獻提過多種評估模型校準度的方法，這些方法可分為三個逐級嚴格的層級：均值校準（mean calibration）、弱校準（weak calibration）、中度校準（moderate calibration），前兩個層級主要源自統計學文獻。目前，關于第四個層級“強校準（strong calibration）”的量化研究仍在進行中。

均值校準（也稱“整體校準”，calibration-in-the-large）用于評估模型預測概率的均值是否等于數據集觀察到的實際事件患病率。衡量整體校準的兩個常用指標是觀察值與預期值之比（O/E ratio）和校準截距（calibration intercept）。

在本案例中，ADNEX模型的O/E比為1.23（95%CI：1.17–1.29），表明實際觀察到的事件數比模型預期高23%。校準截距為0.81（95%CI：0.62–1.01），提示模型平均而言低估了事件發生率（截距>0）。相比校準截距，O/E比具有更直觀的解釋意義。

當一個模型的整體校準良好，且預測概率的離散程度（即分布范圍）不過大也不過小（通過校準斜率[calibration slope]量化），該模型被認為具有弱校準。若預測概率離散度過大，其預測概率值會過于接近0或1（校準斜率<1）；若離散度過小，則預測值會集中在整體患病率附近（斜率>1）。在內部驗證中，校準斜率小于1可能提示模型存在過擬合風險。在本案例研究中，ADNEX模型的校準斜率為0.93（95%CI：0.83–1.05），表明預測概率的離散程度基本合適。

中度校準意味著：對于所有預測概率為x的個體，實際事件的發生率也恰好等于x。評估中度校準最常用的方法是繪制校準圖（calibration plot），也稱為可靠性圖（reliability diagram）。校準圖可通過對個體分組或使用平滑法（smoothing）生成。

圖2展示了本案例研究中使用的兩種校準圖：一種基于等量分十組，另一種采用局部加權回歸平滑法（loess）進行平滑處理。兩條曲線大部分位于對角線的上方，表明在整個預測概率范圍內，模型系統性低估了事件風險。一個可能的原因是，在驗證研究的六個參與中心中，有五個是三級中心，因此惡性腫瘤的實際患病率較高。需要注意的是，分組校準圖無法全面評估中度校準，因為預測概率差異很大的個體仍可能被歸入同一組。

圖2. ADNEX模型的校準圖

已有研究提出了一些針對校準圖的匯總指標，例如針對分組校準圖的期望校準誤差（Expected Calibration Error, ECE），針對平滑校準圖的估計校準指數（Estimated Calibration Index, ECI）和整合校準指數（Integrated Calibration Index, ICI）。

然而，與Hosmer–Lemeshow檢驗等統計學檢驗類似，這些匯總指標無法說明校準偏差方向，即模型是系統性高估還是低估風險。此外，ECE、ECI和ICI的數值依賴于所采用的分組或平滑方法，并且在統計一致性方面存在局限性。目前，學界正在研究更優的匯總指標。因此，包含置信區間的校準圖是評估校準性能的關鍵工具，因其能夠直觀展示在不同預測風險水平下的校準表現。

上述所有校準指標均為半恰當（semi-proper）指標，聚焦于統計性能。

整體性能（Overall performance）

整體性能的基本評估指標包括基于似然函數的指標，如對數損失（logloss，也稱為交叉熵損失）以及Brier評分（Brier score）。

通過與零模型（null model）比較來表達模型性能的指標，包括標準化Brier評分（scaled Brier score，也稱預測準確度指數），以及用于測量解釋變異比例的R2類指標，例如McFadden R2、Cox–Snell R2和Nagelkerke R2。

較少使用的整體性能指標還包括區分度斜率（discrimination slope，也稱判別系數）和平均絕對預測誤差（mean absolute prediction error，MAPE）。

對數似然（loglikelihood）、對數損失（logloss）以及Brier評分屬于“嚴格恰當”（strictly proper）的指標；標準化Brier評分和各類R2指標屬于“漸近嚴格恰當”（asymptotically strictly proper）的指標（樣本量較大時，例如超過100，是嚴格恰當的）；區分度斜率和平均絕對預測誤差屬于不恰當（improper）的指標。上述所有整體性能指標均聚焦于統計性能（模型的第二個關鍵特征，見上文所述）。

整體性能的可視化，通常是分別展示事件組和非事件組預測概率的分布情況。圖3展示了ADNEX模型的小提琴圖（violin plots）：良性腫瘤患者絕大多數具有極低的惡性風險預測概率；惡性腫瘤患者的預測概率大多處于中至較高水平，且分布更為分散。

圖3. 基于ADNEX模型惡性風險預測概率的小提琴圖和散點圖

分類指標

（Classification measures）

本案例使用的ADNEX模型推薦的常用閾值為10%。在此閾值下，將578名患者分類為高風險，其中414名確實患有惡性腫瘤（即真陽性），而164名實際為良性腫瘤（假陽性）。模型將剩余的316名患者分類為低風險，其中296名患者確實為良性腫瘤（真陰性），20名實際為惡性腫瘤（假陰性）。

分類指標分為匯總指標（summary measures）和描述性部分指標（descriptive partial measures）。常見的部分指標包括靈敏度（也稱為召回率recall）、特異度、陽性預測值（PPV，也稱為精確率precision）和陰性預測值（NPV）。靈敏度和特異度是基于實際結果的分類準確性，但在預測時實際結果是未知的；PPV和NPV更具臨床相關性。匯總指標包括分類準確率、平衡準確率、約登指數、Kappa、診斷比值比、F1、Matthew相關系數（MCC）。

F1有點類似AUPRC，且存在一些共同的問題：(1) F1忽略了真陰性的問題；(2) F1沒有直觀的解釋；(3) 僅通過交換結果標簽（將1變為0，0變為1），F1的絕對值就會發生變化。MCC同樣也沒有直觀的解釋。

在給定的決策閾值t下，所有的分類指標都屬于不恰當（improper）的指標。某些分類指標（如平衡準確率、約登指數和F1）在t=0.5（分類準確率）或t等于真實患病率時是半恰當（semi-proper）的指標，但這些閾值t很少是最具臨床相關性的閾值。F1是唯一一個沒有明確關注統計性能的匯總指標，因為它混合了分類效能與臨床效用。

與分類性能相關的圖表包括ROC曲線和PR曲線，這些圖展示了在所有可能的決策閾值下的部分分類指標。這些圖的局限性在于并不容易直接觀察到閾值（見圖1）。另一種圖是分類圖（classification plot）（圖4），在x軸上展示決策閾值，在y軸上展示一個或多個分類指標。

圖4. ADNEX模型的分類圖

ADNEX模型在10%的閾值下，顯示出分類準確率為0.79（95% CI 0.77–0.82），F1為0.82（0.79–0.84），MCC為0.63（0.58–0.67）。

臨床效用（Clinical utility）

根據經典的決策分析理論，臨床效用關注的是基于模型分類所做出的決策質量，這些分類需要對應于臨床相關的閾值。為了評估效用，要明確考慮誤分類成本。在醫療領域的預測研究中，用于評估臨床效用最常用的指標是凈效益（net benefit）。標準化凈效益等于凈效益除以患病率，最大值為1。

凈效益根據誤分類成本設定決策閾值。設定誤分類成本并不容易，關于成本應該是什么，還存在爭議。因此，凈效益或標準化凈效益會在一系列合理的決策閾值范圍內繪制決策曲線。凈效益和標準化凈效益屬于半恰當指標。

還有一個指標是預期成本（expected cost）。與凈效益不同，預期成本關注的是，給定誤分類成本時讓總成本最小化的決策閾值，預期成本也是半恰當指標。如果把成本標準化為總和為1，可以繪制出一系列標準化的假陽性和假陰性成本的預期成本圖。

根據決策理論，關鍵是要檢查模型是否比參考策略（即治療所有的人或任何人都不治療）具有更好的效用，如果更好的話，還要和其他競爭模型比較。在所有合理的決策閾值范圍內，ADNEX的（標準化）凈效益均優于參考策略（圖5A-B）。預期成本曲線也給出了相同的結果（圖5C）。當t=0.1時，模型的凈效益為0.44。假陰性的標準化成本為0.9，預期成本在t=0.06時最小化至0.35。

圖5. ADNEX模型的決策曲線：凈效益、標準化凈效益和預期成本

總結

本文評估了用于醫療實踐的預測性AI模型在五個性能維度（區分度、校準度、整體性能、分類性能和臨床效用）的32項指標。在驗證預測模型性能時，要避免使用那些不恰當（improper）的指標（共13項），或那些未能明確聚焦于統計性能或決策分析性能的指標（3項；見表1）。其中，F1是唯一同時違反上述兩項特征的指標。

不恰當指標可能誤導研究者，而那些在未妥善考慮誤分類成本的情況下，將統計性能與決策分析性能混為一談的指標則具有模糊性，應被專門用于評估臨床效用的指標所取代。

表1. 在驗證用于臨床決策的預測模型時，常用的各類指標與圖表的建議

指標

建議

區分度（Discrimination）

AUROC

該指標量化模型的區分度，是統計模型性能的關鍵組成部分。

AUPRC和pAUROC

不建議

這些指標試圖超越單純的統計評估，但又不符合決策分析的基本原則。

ROC曲線和PR曲線

非必需，但也沒有不建議

相較于AUROC，這些曲線提供的額外信息有限。

校準度（Calibration）

O/E比（觀察值/期望值比）

非必需，但也沒有不建議

該指標易于解釋，但僅能部分反映校準情況；在內部驗證中，O/E比常為1或接近1。

校準截距與校準斜率

非必需，但也沒有不建議

這些指標難以直觀解釋，且僅提供部分校準信息；內部驗證時，校準斜率可用于評估過擬合風險。

ECI、ICI和ECE

非必需

這些指標是對校準圖的匯總性指標，會掩蓋校準偏差的性質和方向，且存在統計一致性問題。

校準圖或可靠性圖

這是評估校準度最富洞察的方法，推薦使用平滑法而非分組法；內部驗證時可優先使用校準圖，若僅報告校準斜率也是可接受的；外部驗證時強烈推薦使用校準圖，并應標明不確定性（例如95%CI）。

整體性能（Overall performance）

對數似然、Brier 評分、R2 類指標

非必需，但也沒有不建議

建議將區分度與校準度分開評估。這些指標在模型選擇中高度相關，但本文未涵蓋該內容。

區分度斜率與平均絕對預測誤差（MAPE）

不建議

這些指標屬于“不恰當”指標，即錯誤模型的得分可能優于正確模型。

風險分布圖

展示不同結局類別下風險預測值的分布，有助于深入理解模型。

分類性能（Classification）

分類準確率、平衡準確率、約登指數、診斷比值比、Kappa、F1、MCC

不建議

在臨床相關決策閾值下，這些指標均“不恰當”；此外，部分指標難以解釋。

靈敏度與特異度

非必需；若一起報告可作為描述性指標

分別單獨報告是不合適的，但若兩者同時報告，可作為描述性指標。然而，因其依賴實際結局，在預測時不具備直接實用性。

陽性預測值（PPV）與陰性預測值（NPV）

非必需；若一起報告可作為描述性指標

分別單獨報告是不合適的，但同時報告具有高度臨床實用性。

分類圖

非必需，但也沒有不建議

可作為描述性圖表呈現，按閾值展示靈敏度與特異度，或PPV與NPV。

臨床效用（Clinical utility）

凈效益或標準化凈效益（帶決策曲線），預期成本（帶成本曲線）

這些是量化模型能否促成更優臨床決策的重要指標。凈效益的決策曲線可展示在不同臨床相關閾值下，相對于參考策略（及其他競爭模型）的潛在臨床價值。

本文認為，面向醫療實踐的預測性AI模型的性能評估應聚焦于區分度、校準度和臨床效用。區分度和校準度有助于建模者和臨床醫生理解如何改進模型，臨床效用則從決策者和患者的角度出發，評估模型是否能促成更優的臨床決策。

本文推薦采用以下核心指標與圖表組合在研究報告中呈現：

AUROC（用于評估區分度）；
平滑校準圖（用于評估校準度）；
臨床效用指標（如帶決策曲線的凈效益）；
按結局類別展示預測概率分布的圖形。

在內部驗證AI模型時，校準度的重要性可能相對較低，因為模型開發與內部驗證基于相同的人群。但在外部驗證中（即在不同人群或臨床環境中評估模型時），校準度就尤為關鍵。盡管內部驗證時使用校準圖也有價值，但僅報告校準斜率，輔以O/E比通常已足夠，對于構建良好的模型，預期其O/E比應接近1。

除上述核心指標外，PPV聯合NPV，或靈敏度聯合特異度，也可作為描述性指標予以報告。但需注意，這些指標若單獨報告則屬于“不恰當”指標。

所有報告的指標和圖表，在可能的情況下都應附帶置信區間，臨床效用指標除外，針對其不確定性的量化仍是近期學術爭論與研究的焦點。

本文建議不要使用 F1、AUPRC 或 pAUROC，而應采用專門的臨床效用指標來評估模型性能。需要指出的是，本文的觀點不適用于某些真陰性難以明確定義的醫療場景，例如病灶檢測。

有三個與性能評估相關的重要問題值得強調：樣本量（sample size）、性能異質性（performance heterogeneity）、報告透明度（reporting transparency）。

充足的樣本量對于精確評估模型性能至關重要。以往建議最小的結局類別中至少包含100至200名個體。目前已有更具體的樣本量計算方法用于基于回歸的預測模型。在比較不同模型的校準性能時，通常需要更大的樣本量。

由于不同地區、環境或時間段的人群特征和測量流程存在差異，模型性能的異質性是預料中的。可通過Meta分析和Meta回歸對多個外部驗證研究的性能異質性進行量化和解釋。若簡單地將基于不同外部數據集驗證的模型進行直接比較，可能得出錯誤結論。

全面透明地報告預測性AI模型研究至關重要，可遵循TRIPOD+AI及相關報告規范。為避免“性能操縱”（performance hacking），應重視預先發表研究方案，并在合理可行的情況下共享代碼和數據。

本文整理自：Lancet Digit Health. 2025 Dec 13:100916.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.