網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

CT影像的 Aha moment | Nature 報道多中心4.4w例驗證集下穩(wěn)健表現(xiàn)的大模型

2026-03-19 12:10:49　來源: PsyBrain腦心前沿

北京舉報

分享至

一鍵關(guān)注，點亮星標 ?? 前沿不走丟！

認知神經(jīng)科學前沿文獻分享

基本信息

Title:Merlin: a computed tomography vision–language foundation model and dataset

發(fā)表時間：2026-03-04

發(fā)表期刊:Nature

影響因子：48.5

獲取原文：

添加小助手:PSY-Brain-Frontier即可獲取PDF版本

研究背景

全球每年進行的計算機斷層掃描（CT）約3億次，其中四分之一為腹部掃描。單次掃描往往包含超過300個切片，放射科醫(yī)師解釋每份檢查通常需要20分鐘，這種高強度的勞動負荷正導致嚴重的醫(yī)師短缺，預計到2036年短缺人數(shù)將超過1.9萬。

盡管機器學習在影像任務中初露鋒芒，但現(xiàn)有的醫(yī)療視覺語言模型多局限于2D影像或短報告，難以高效處理復雜的3D體積數(shù)據(jù)。此外，腹部CT常包含早期疾病的生物標志物，但往往在日常報告中被忽略。針對這一領域痛點，研究者致力于開發(fā)一種能直接學習體積影像、電子健康記錄（EHR）數(shù)據(jù)及放射報告的原生3D視覺語言基礎模型，以期在減輕診斷負擔的同時，挖掘更深層次的疾病預測價值。

實驗設計與方法邏輯

本項研究引入了Merlin模型，這是一種原生3D視覺語言基礎模型（VLM），旨在通過大規(guī)模多模態(tài)數(shù)據(jù)建立腹部CT的通用表征。Merlin采用3D ResNet152作為影像編碼器，并通過Clinical Longformer作為文本編碼器以處理超長臨床序列。

實驗范式基于多階段預訓練框架：首先利用EHR中的183萬余條結(jié)構(gòu)化診斷代碼（ICD代碼）通過二元交叉熵損失進行弱監(jiān)督學習；隨后結(jié)合600余萬個放射報告詞元，利用InfoNCE損失進行對比學習，實現(xiàn)影像與文本語義的對齊。核心技術(shù)手段還包括放射報告切分技術(shù)，即將報告按解剖區(qū)域拆分以強化局部特征學習。研究者在涉及5137個內(nèi)部掃描和44098個外部掃描的大規(guī)模數(shù)據(jù)集上，對Merlin進行了包括零樣本分類、表型識別、慢性病預測及語義分割在內(nèi)的752項任務測試，全面評估其在不同機構(gòu)、掃描參數(shù)及患者人群中的泛化能力。

Fig. 1 | Overview of Merlin training and evaluation. 訓練和評估框架圖

核心發(fā)現(xiàn)

發(fā)現(xiàn)一：卓越的零樣本臨床診斷能力

Merlin在未經(jīng)特定任務微調(diào)的情況下，能根據(jù)文本提示直接對30種常見腹部病變進行分類，其在內(nèi)部驗證集上的宏平均F1分數(shù)達到0.741，在外部驗證集上達到0.647。相比之下，基于2D影像的OpenCLIP和BioMedCLIP模型表現(xiàn)顯著遜色。該發(fā)現(xiàn)揭示了Merlin在處理復雜病理特征（如胸腔積液、脾腫大等）時具備極強的語義理解力，雖然在闌尾炎等微小病灶上的表現(xiàn)仍具挑戰(zhàn)性。

Fig. 2 | Zero-shot classification of findings. Figure 2展示了零樣本分類的原理架構(gòu)及Merlin與多個基準模型的量化對比，證明了原生3D架構(gòu)在捕獲空間體積信息方面的決定性優(yōu)勢。

發(fā)現(xiàn)二：高效的表型關(guān)聯(lián)與多疾病風險預測

Merlin在預測692種不同表型時表現(xiàn)穩(wěn)健，平均AUROC達到0.812，其中在肝臟、腎臟及胃腸道系統(tǒng)疾病中的探測效果尤為突出。此外，模型在5年慢性病風險預測任務中，僅需10%的標注數(shù)據(jù)即可實現(xiàn)0.708的AUROC，表現(xiàn)優(yōu)于完全監(jiān)督的圖像專用模型，顯示出其在機會性篩查中的巨大潛力。

Fig. 3 | Phenotype classification. Figure 3繪制了前20種高患病率表型組的平均AUROC，揭示了模型性能隨訓練數(shù)據(jù)規(guī)模增長的縮放規(guī)律，驗證了大數(shù)據(jù)驅(qū)動下表征學習的深度。

發(fā)現(xiàn)三：強大的跨域泛化與解剖學普適性

盡管Merlin僅在腹部CT上訓練，但在處理完全不同的胸部CT數(shù)據(jù)時，其凍結(jié)編碼器的線性探測AUC表現(xiàn)仍比專門在胸部CT上訓練的CT-CLIP和M3FM模型高出12.3%至24.7%。這表明Merlin學習到了具備高度魯棒性的通用解剖特征，能夠有效應對不同醫(yī)療機構(gòu)間的設備差異和報告習慣偏移。

Fig. 5 | External validation on abdominal and chest CT scans. Figure 5的雷達圖展示了Merlin在多個外部站點上對30種病征的分類表現(xiàn)，即使在分布移位的環(huán)境下，Merlin依然穩(wěn)居性能曲線最外側(cè)，印證了基礎模型在多樣化臨床場景中的適配力。

省流總結(jié)

本研究推出的Merlin模型標志著3D醫(yī)學影像分析進入了基金模型時代。通過融合1.5萬例高質(zhì)量CT影像、結(jié)構(gòu)化診斷代碼與非結(jié)構(gòu)化放射報告，Merlin不僅在零樣本診斷、跨模態(tài)檢索和器官分割等任務中打破了性能天花板，更展現(xiàn)出預測未來疾病風險的巨大潛力。其原生3D設計與多模態(tài)數(shù)據(jù)對齊策略，成功克服了2D模型的局限性，且在外部多站點驗證中表現(xiàn)出驚人的泛化性。這項工作證明，利用現(xiàn)有大規(guī)模臨床數(shù)據(jù)訓練的通用型AI，可以有效緩解放射科醫(yī)生的工作壓力，并為臨床決策提供深層次的預判支持。

請打分

這篇剛剛登上Nature的研究，是否實至名歸？我們邀請您作為“云審稿人”，一同品鑒。精讀全文后，歡迎在匿名投票中打分，并在評論區(qū)分享您的深度見解。

分享人：天天

審核：PsyBrain 腦心前沿編輯部

你好，這里是「PsyBrain 腦心前沿」

專注追蹤全球認知神經(jīng)科學的最尖端突破

視野直擊 Nature, Science, Cell 正刊及 Nat Neurosci, Nat Hum Behav, Neuron, Sci Adv 等核心子刊與頂級大刊

每日速遞「深度解讀」與「前沿快訊」，為你打破信息差

科研是一場探索未知的長跑，但你無需獨行。歡迎志同道合的你加入PsyBrain 學術(shù)社群，和一群懂你的同行，共同丈量腦與心智的無垠前沿。

點擊卡片進群，歡迎你的到來

一鍵分享，讓更多人了解前沿

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.