![]()
一鍵關(guān)注,點亮星標 ?? 前沿不走丟!
認知神經(jīng)科學前沿文獻分享
![]()
基本信息
Title:Merlin: a computed tomography vision–language foundation model and dataset
發(fā)表時間:2026-03-04
發(fā)表期刊:Nature
影響因子:48.5
獲取原文:
添加小助手:PSY-Brain-Frontier即可獲取PDF版本
![]()
![]()
研究背景
全球每年進行的計算機斷層掃描(CT)約3億次,其中四分之一為腹部掃描。單次掃描往往包含超過300個切片,放射科醫(yī)師解釋每份檢查通常需要20分鐘,這種高強度的勞動負荷正導致嚴重的醫(yī)師短缺,預計到2036年短缺人數(shù)將超過1.9萬。
盡管機器學習在影像任務中初露鋒芒,但現(xiàn)有的醫(yī)療視覺語言模型多局限于2D影像或短報告,難以高效處理復雜的3D體積數(shù)據(jù)。此外,腹部CT常包含早期疾病的生物標志物,但往往在日常報告中被忽略。針對這一領域痛點,研究者致力于開發(fā)一種能直接學習體積影像、電子健康記錄(EHR)數(shù)據(jù)及放射報告的原生3D視覺語言基礎模型,以期在減輕診斷負擔的同時,挖掘更深層次的疾病預測價值。
![]()
實驗設計與方法邏輯
本項研究引入了Merlin模型,這是一種原生3D視覺語言基礎模型(VLM),旨在通過大規(guī)模多模態(tài)數(shù)據(jù)建立腹部CT的通用表征。Merlin采用3D ResNet152作為影像編碼器,并通過Clinical Longformer作為文本編碼器以處理超長臨床序列。
實驗范式基于多階段預訓練框架:首先利用EHR中的183萬余條結(jié)構(gòu)化診斷代碼(ICD代碼)通過二元交叉熵損失進行弱監(jiān)督學習;隨后結(jié)合600余萬個放射報告詞元,利用InfoNCE損失進行對比學習,實現(xiàn)影像與文本語義的對齊。核心技術(shù)手段還包括放射報告切分技術(shù),即將報告按解剖區(qū)域拆分以強化局部特征學習。研究者在涉及5137個內(nèi)部掃描和44098個外部掃描的大規(guī)模數(shù)據(jù)集上,對Merlin進行了包括零樣本分類、表型識別、慢性病預測及語義分割在內(nèi)的752項任務測試,全面評估其在不同機構(gòu)、掃描參數(shù)及患者人群中的泛化能力。
![]()
Fig. 1 | Overview of Merlin training and evaluation. 訓練和評估框架圖
![]()
核心發(fā)現(xiàn)
發(fā)現(xiàn)一:卓越的零樣本臨床診斷能力
Merlin在未經(jīng)特定任務微調(diào)的情況下,能根據(jù)文本提示直接對30種常見腹部病變進行分類,其在內(nèi)部驗證集上的宏平均F1分數(shù)達到0.741,在外部驗證集上達到0.647。相比之下,基于2D影像的OpenCLIP和BioMedCLIP模型表現(xiàn)顯著遜色。該發(fā)現(xiàn)揭示了Merlin在處理復雜病理特征(如胸腔積液、脾腫大等)時具備極強的語義理解力,雖然在闌尾炎等微小病灶上的表現(xiàn)仍具挑戰(zhàn)性。
![]()
Fig. 2 | Zero-shot classification of findings. Figure 2展示了零樣本分類的原理架構(gòu)及Merlin與多個基準模型的量化對比,證明了原生3D架構(gòu)在捕獲空間體積信息方面的決定性優(yōu)勢。
發(fā)現(xiàn)二:高效的表型關(guān)聯(lián)與多疾病風險預測
Merlin在預測692種不同表型時表現(xiàn)穩(wěn)健,平均AUROC達到0.812,其中在肝臟、腎臟及胃腸道系統(tǒng)疾病中的探測效果尤為突出。此外,模型在5年慢性病風險預測任務中,僅需10%的標注數(shù)據(jù)即可實現(xiàn)0.708的AUROC,表現(xiàn)優(yōu)于完全監(jiān)督的圖像專用模型,顯示出其在機會性篩查中的巨大潛力。
![]()
Fig. 3 | Phenotype classification. Figure 3繪制了前20種高患病率表型組的平均AUROC,揭示了模型性能隨訓練數(shù)據(jù)規(guī)模增長的縮放規(guī)律,驗證了大數(shù)據(jù)驅(qū)動下表征學習的深度。
發(fā)現(xiàn)三:強大的跨域泛化與解剖學普適性
盡管Merlin僅在腹部CT上訓練,但在處理完全不同的胸部CT數(shù)據(jù)時,其凍結(jié)編碼器的線性探測AUC表現(xiàn)仍比專門在胸部CT上訓練的CT-CLIP和M3FM模型高出12.3%至24.7%。這表明Merlin學習到了具備高度魯棒性的通用解剖特征,能夠有效應對不同醫(yī)療機構(gòu)間的設備差異和報告習慣偏移。
![]()
Fig. 5 | External validation on abdominal and chest CT scans. Figure 5的雷達圖展示了Merlin在多個外部站點上對30種病征的分類表現(xiàn),即使在分布移位的環(huán)境下,Merlin依然穩(wěn)居性能曲線最外側(cè),印證了基礎模型在多樣化臨床場景中的適配力。
![]()
省流總結(jié)
本研究推出的Merlin模型標志著3D醫(yī)學影像分析進入了基金模型時代。通過融合1.5萬例高質(zhì)量CT影像、結(jié)構(gòu)化診斷代碼與非結(jié)構(gòu)化放射報告,Merlin不僅在零樣本診斷、跨模態(tài)檢索和器官分割等任務中打破了性能天花板,更展現(xiàn)出預測未來疾病風險的巨大潛力。其原生3D設計與多模態(tài)數(shù)據(jù)對齊策略,成功克服了2D模型的局限性,且在外部多站點驗證中表現(xiàn)出驚人的泛化性。這項工作證明,利用現(xiàn)有大規(guī)模臨床數(shù)據(jù)訓練的通用型AI,可以有效緩解放射科醫(yī)生的工作壓力,并為臨床決策提供深層次的預判支持。
![]()
請打分
這篇剛剛登上Nature的研究,是否實至名歸?我們邀請您作為“云審稿人”,一同品鑒。精讀全文后,歡迎在匿名投票中打分,并在評論區(qū)分享您的深度見解。
分享人:天天
審核:PsyBrain 腦心前沿編輯部
你好,這里是「PsyBrain 腦心前沿」
專注追蹤全球認知神經(jīng)科學的最尖端突破
視野直擊 Nature, Science, Cell 正刊 及 Nat Neurosci, Nat Hum Behav, Neuron, Sci Adv 等核心子刊與頂級大刊
每日速遞「深度解讀」與「前沿快訊」,為你打破信息差
科研是一場探索未知的長跑,但你無需獨行。歡迎志同道合的你加入PsyBrain 學術(shù)社群,和一群懂你的同行,共同丈量腦與心智的無垠前沿。
點擊卡片進群,歡迎你的到來
![]()
![]()
![]()
一鍵分享,讓更多人了解前沿
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.