![]()
始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū),始終堅(jiān)持“中立、開放、共建、共創(chuàng)、合作”五項(xiàng)基本原則,歡迎加入共同成長。
大語言模型(LLM)在醫(yī)療健康領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力,從輔助復(fù)雜診斷到個(gè)性化患者護(hù)理,這些強(qiáng)大的工具正在逐步改變醫(yī)療實(shí)踐的面貌。然而,將這些工具安全有效地整合到臨床實(shí)踐中,完全取決于我們對其真實(shí)能力的嚴(yán)格評估能力。隨著通用知識(shí)與專家級臨床推理之間差距的擴(kuò)大,開發(fā)復(fù)雜、基于臨床的基準(zhǔn)測試不僅是學(xué)術(shù)進(jìn)步的問題,更是構(gòu)建可信醫(yī)療人工智能的前提條件。
![]()
項(xiàng)目地址
https://wisemodel.cn/datasets/FreedomIntelligence/LiveClin
當(dāng)前醫(yī)療大語言模型的評估領(lǐng)域存在兩個(gè)關(guān)鍵局限性。首先是數(shù)據(jù)污染問題:靜態(tài)基準(zhǔn)測試如MedQA等不僅容易受到數(shù)據(jù)污染的影響,還面臨知識(shí)過時(shí)的風(fēng)險(xiǎn)。隨著模型在日益擴(kuò)大的網(wǎng)絡(luò)規(guī)模語料庫上進(jìn)行訓(xùn)練,流行靜態(tài)基準(zhǔn)測試的問題和答案不可避免地被吸收到其訓(xùn)練集中。這種廣泛的污染意味著模型越來越多地在已經(jīng)見過的數(shù)據(jù)上進(jìn)行測試,導(dǎo)致性能分?jǐn)?shù)虛高,這嚴(yán)重威脅了評估的完整性。
其次是評估設(shè)計(jì)的局限性:現(xiàn)有的單輪評估與患者護(hù)理的縱向性質(zhì)不一致。通過在孤立的、合成的快照中評估推理能力,即使是先進(jìn)的系統(tǒng)如MedXpertQA和AgentClinic也將患者管理簡化為一系列不連貫的任務(wù)。這種方法無法評估導(dǎo)航患者整個(gè)臨床路徑所需的綜合推理能力,從初始呈現(xiàn)到長期管理。
![]()
圖1. LiveClin 模擬真實(shí)患者全臨床路徑的動(dòng)態(tài)推理示例
為了量化數(shù)據(jù)污染和知識(shí)過時(shí)的雙重影響,研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)縱向試點(diǎn)研究。結(jié)果顯示,模型在較舊的、可能被污染的數(shù)據(jù)上的表現(xiàn)與在新的、當(dāng)代數(shù)據(jù)上的表現(xiàn)之間存在顯著差距。以GPT-5為例,在其知識(shí)截止日期內(nèi)的數(shù)據(jù)上得分高達(dá)45.0%,但在截止日期后發(fā)布的案例上下降了近10個(gè)百分點(diǎn)。這種模式在各個(gè)模型中一致存在,量化了數(shù)據(jù)污染的扭曲效應(yīng)和知識(shí)過時(shí)的影響。
01
LiveClin基準(zhǔn)測試概述
為解決上述挑戰(zhàn),研究團(tuán)隊(duì)引入了LiveClin——一個(gè)旨在近似真實(shí)世界臨床實(shí)踐的實(shí)時(shí)基準(zhǔn)測試。該基準(zhǔn)測試從當(dāng)代、同行評審的病例報(bào)告中構(gòu)建,每半年更新一次,確保臨床時(shí)效性并抵抗數(shù)據(jù)污染。研究團(tuán)隊(duì)使用經(jīng)過驗(yàn)證的AI-人類工作流程(涉及239名醫(yī)生),將真實(shí)患者病例轉(zhuǎn)化為復(fù)雜的多模態(tài)評估場景,覆蓋整個(gè)臨床路徑。基準(zhǔn)測試目前包含1,407個(gè)病例報(bào)告和6,605個(gè)問題。
LiveClin的核心創(chuàng)新在于其動(dòng)態(tài)性和臨床真實(shí)性。與靜態(tài)基準(zhǔn)測試不同,LiveClin通過持續(xù)更新的機(jī)制確保評估內(nèi)容始終反映最新的醫(yī)學(xué)知識(shí)和臨床實(shí)踐。每個(gè)病例都被轉(zhuǎn)化為多階段考試,評估模型是否能夠順序整合反映患者病情演變的多模態(tài)信息。這種設(shè)計(jì)模擬了從初始評估到長期管理的完整臨床路徑,在每個(gè)關(guān)鍵決策點(diǎn)逐步引入新的臨床信息和多樣化的影像模態(tài)(如X光、MRI、病理、CT),以挑戰(zhàn)模型在演進(jìn)場景中的推理能力。
![]()
圖. 不同發(fā)表時(shí)間的數(shù)據(jù)集上大語言模型(LLM)的準(zhǔn)確率對比。研究發(fā)現(xiàn)模型在較早、可能受到數(shù)據(jù)污染的數(shù)據(jù)上的表現(xiàn),與在最新、當(dāng)代數(shù)據(jù)上的表現(xiàn)之間存在顯著差距。以 GPT-5 為例:在其知識(shí)庫覆蓋范圍內(nèi)的數(shù)據(jù)上,其得分可高達(dá) 45.0%;但在知識(shí)截止時(shí)間之后發(fā)表的病例上,成績則下降了近 10 個(gè)百分點(diǎn)。
02
數(shù)據(jù)構(gòu)建流程
2.1臨床分類體系
LiveClin的分類體系是一個(gè)多層次性能分析的基礎(chǔ)框架,旨在克服現(xiàn)有基準(zhǔn)測試單一分?jǐn)?shù)、范圍狹窄的局限性。該體系采用三級層次結(jié)構(gòu):第一級為ICD-10章節(jié),包含16個(gè)臨床連貫的章節(jié),提供模型在主要醫(yī)學(xué)專業(yè)領(lǐng)域能力的宏觀視角;第二級為疾病群組,定義了72個(gè)不同的疾病群組,平衡了特異性和統(tǒng)計(jì)可靠性的需求;第三級為ICD-10代碼,實(shí)現(xiàn)細(xì)粒度的診斷級評估,對于識(shí)別模型在眾多疾病中的具體優(yōu)勢和劣勢至關(guān)重要。
2.2病例構(gòu)建
病例構(gòu)建階段專注于建立高質(zhì)量、結(jié)構(gòu)化的當(dāng)代臨床病例語料庫。研究團(tuán)隊(duì)首先從PubMed Central開放獲取子集中程序化檢索2025年上半年發(fā)布的所有XML格式病例報(bào)告。然后,自定義構(gòu)建的流程解析每個(gè)文件,提取關(guān)鍵元數(shù)據(jù)并分析文章結(jié)構(gòu)。描述患者病程的部分(如病例呈現(xiàn))被聚合形成核心病例敘述,而包含作者分析的部分(如討論)被整合為病例討論。為支持多模態(tài)能力評估,該流程還將所有表格數(shù)據(jù)轉(zhuǎn)換為Markdown格式,并提取所有相關(guān)圖像的持久URL及其標(biāo)題。
在采樣階段,研究團(tuán)隊(duì)首先使用gpt-4.1-2025-04-14對每個(gè)病例報(bào)告進(jìn)行三級分類。然后實(shí)施分層抽樣協(xié)議,以72個(gè)二級疾病群組為指導(dǎo),每個(gè)群組抽樣30個(gè)獨(dú)特病例,同時(shí)優(yōu)先考慮每個(gè)樣本中三級疾病的多樣性,以減輕常見疾病的過度代表性。這一嚴(yán)格程序最終產(chǎn)生了2,150份高質(zhì)量病例報(bào)告的語料庫。
2.3考試生成
考試生成階段采用生成器-批評器架構(gòu),將靜態(tài)報(bào)告轉(zhuǎn)化為模擬整個(gè)臨床路徑的多步驟問題。生成器代理首先將每個(gè)病例重構(gòu)為漸進(jìn)式臨床挑戰(zhàn),創(chuàng)建簡潔的初始臨床場景,然后生成3-6個(gè)漸進(jìn)式、10選項(xiàng)多選題序列。每個(gè)問題的上下文在適當(dāng)?shù)墓ぷ髁鞒滩襟E策略性地引入新的臨床細(xì)節(jié),探測模型整合演進(jìn)信息的能力。
批評器代理負(fù)責(zé)閉環(huán)質(zhì)量控制。一旦生成器產(chǎn)生問題集,批評器在兩個(gè)關(guān)鍵維度上評估它:臨床準(zhǔn)確性和認(rèn)知復(fù)雜性。如果問題被標(biāo)記,批評器提供可操作的反饋,促使生成器修訂該集合。這個(gè)精煉循環(huán)持續(xù)進(jìn)行,直到問題集達(dá)到兩個(gè)標(biāo)準(zhǔn):100%的臨床準(zhǔn)確性(確保所有內(nèi)容事實(shí)正確)和超過60%問題的高認(rèn)知復(fù)雜性。為確保效率,任何在10個(gè)循環(huán)內(nèi)未能收斂的集合將被丟棄。
2.4質(zhì)量檢查
質(zhì)量檢查階段實(shí)施多層質(zhì)量保證協(xié)議,遵循保守原則:任何有潛在缺陷的問題都被拒絕。該協(xié)議結(jié)合AI預(yù)篩選和多層級醫(yī)生驗(yàn)證。所有評估者應(yīng)用兩個(gè)嚴(yán)格標(biāo)準(zhǔn):事實(shí)驗(yàn)證(確保與源病例完美對齊)和邏輯可解性(確認(rèn)答案可從可用信息中推導(dǎo))。AI驅(qū)動(dòng)的預(yù)篩選首先由法官代理進(jìn)行裁決,作為高度保守的預(yù)過濾器,自主拒絕根本上有缺陷的問題。隨后,239名持證醫(yī)生進(jìn)行兩階段驗(yàn)證:標(biāo)注階段由主治醫(yī)生評估每個(gè)問題;檢查階段由資深醫(yī)生審查標(biāo)注。任何差異都會(huì)觸發(fā)與標(biāo)注者的修訂循環(huán),直到達(dá)成共識(shí)。
![]()
圖3. LiveClin 的病例檢索、生成與過濾流程
03
實(shí)驗(yàn)結(jié)果與分析
3.1整體性能評估
研究團(tuán)隊(duì)對26個(gè)領(lǐng)先的大語言模型進(jìn)行了全面評估。結(jié)果顯示,專有模型領(lǐng)先,o3和GPT-5位居榜首。在100個(gè)隨機(jī)抽樣的LiveClin病例上與醫(yī)生進(jìn)行基準(zhǔn)對比,主任醫(yī)師準(zhǔn)確率最高,主治醫(yī)生略低,兩組都超過了大多數(shù)模型。只有GPT-5和o3略微超過主治醫(yī)生,但仍未達(dá)到主任醫(yī)師的水平。表現(xiàn)最好的模型僅達(dá)到35.7%的案例準(zhǔn)確率,這凸顯了基準(zhǔn)測試的難度。
開源模型正在縮小差距,大規(guī)模模型如InternVL-3.5-241B接近專有領(lǐng)導(dǎo)者,高效設(shè)計(jì)如GLM-4V-9B超過了較弱的專有系統(tǒng)如GPT-4o。研究發(fā)現(xiàn)挑戰(zhàn)了單純通過擴(kuò)展或新版本發(fā)布就能帶來更好臨床推理能力的信念。例如,Claude 3.5 Sonnet超過了其后繼者Claude 3.7 Sonnet,在Gemini系列中,Gemini 2.0 Flash得分高于Gemini 2.5 Flash。這標(biāo)志著自動(dòng)升級帶來的收益已經(jīng)結(jié)束,指向需要針對性的、特定領(lǐng)域的優(yōu)化。
![]()
圖. LiveClin的數(shù)據(jù)分布與統(tǒng)計(jì)
3.2深度分析
對臨床路徑上的錯(cuò)誤模式分析揭示了不同模型類別的獨(dú)特失敗模式。頂級專有模型如o3傾向于在路徑中期失敗,錯(cuò)誤在認(rèn)知要求高的診斷與解釋階段達(dá)到峰值。相比之下,開源醫(yī)療模型表現(xiàn)出后期失敗模式,錯(cuò)誤集中在最后四分之一的隨訪階段,表明長上下文保留的關(guān)鍵性崩潰。通用模型如GLM-4V-9B表現(xiàn)出前端加載的錯(cuò)誤特征,在過程早期就出現(xiàn)失誤,這凸顯了提高從初始臨床呈現(xiàn)進(jìn)行有效推理能力的迫切需求。
對ICD-10章節(jié)的分析顯示,模型性能高度可變,揭示了獨(dú)特的專業(yè)化以及普遍的弱點(diǎn)。例如,模型在由清晰系統(tǒng)邏輯支配的領(lǐng)域(如內(nèi)分泌疾病)表現(xiàn)出色,但在需要細(xì)致綜合的領(lǐng)域(如腫瘤)普遍表現(xiàn)不佳。有趣的是,這種專業(yè)化超越了規(guī)模:頂級o3(68.4%)和緊湊的Claude-3.5-Sonnet(63.2%)在精神和行為障礙方面都達(dá)到了出色的準(zhǔn)確率。
![]()
圖4. 26款大模型與人類真實(shí)醫(yī)生在 LiveClin 上的 Case Accuracy(病例完全通關(guān)率)評測結(jié)果比較3.3多模態(tài)分析
多模態(tài)推理分析顯示,簡單數(shù)據(jù)提取與復(fù)雜推理之間存在關(guān)鍵差距。模型自信地解釋結(jié)構(gòu)化數(shù)據(jù)如圖表(75.1%),但在需要專家級推理時(shí)表現(xiàn)不佳,病理(59.6%)和生物信號(53.6%)等模態(tài)上的表現(xiàn)較差。盡管專業(yè)訓(xùn)練顯示出希望,MedGemma-27B在生物信號方面表現(xiàn)出驚人的能力(71.4%),但基礎(chǔ)穩(wěn)健性仍然是關(guān)鍵挑戰(zhàn)。即使是最有能力的模型也可能在看似簡單的輸入如人口統(tǒng)計(jì)表上出錯(cuò),這凸顯了這一核心問題。
![]()
圖. 各款大模型在不同醫(yī)學(xué)影像及表格上的準(zhǔn)確率熱力圖
04
消融研究
為驗(yàn)證基于代理的流程中每個(gè)組件的貢獻(xiàn),研究團(tuán)隊(duì)在隨機(jī)抽樣的200份病例報(bào)告上進(jìn)行了消融研究。結(jié)果顯示,基于LLM的生成在可擴(kuò)展性和問題復(fù)雜性方面都有顯著改善。單獨(dú)運(yùn)行時(shí),生成器代理將時(shí)間和財(cái)務(wù)成本相比醫(yī)生撰寫降低了近兩個(gè)數(shù)量級,同時(shí)將簡單問題的比例從38.5%降低到16.5%。添加批評器代理對事實(shí)準(zhǔn)確性至關(guān)重要,將醫(yī)生驗(yàn)證的準(zhǔn)確率從84.5%提高到93.0%,并進(jìn)一步將簡單問題比例降低到5.5%。這種迭代精煉對于大規(guī)模產(chǎn)生可靠、臨床要求高的內(nèi)容至關(guān)重要。
最終的法官代理不僅作為過濾器,更是人類審查過程的關(guān)鍵增強(qiáng)。雖然其包含名義上將通過率降低到89.5%,但這種降低代表了一個(gè)積極的結(jié)果:更嚴(yán)格的質(zhì)量標(biāo)準(zhǔn)。通過為醫(yī)生提供結(jié)構(gòu)化的審計(jì)跟蹤和來自源病例的直接證據(jù),法官使他們能夠識(shí)別可能被忽視的細(xì)微缺陷。
05
可持續(xù)性與污染控制
LiveClin的長期可靠性依賴于可持續(xù)性、污染控制和偏見評估。研究團(tuán)隊(duì)維持每半年一次的醫(yī)生審查更新周期作為可靠實(shí)時(shí)醫(yī)療AI評估的核心要求。每個(gè)周期替換整個(gè)評估集,重新評估現(xiàn)有模型,并包括新發(fā)布的模型。利用AI-人類協(xié)作工作流程,前六個(gè)月的病例被收集、驗(yàn)證并在前兩周內(nèi)發(fā)布。
為限制污染風(fēng)險(xiǎn),研究團(tuán)隊(duì)實(shí)施定期更新,遵循LiveBench和LiveCodeBench的做法。模型數(shù)據(jù)收集與公開發(fā)布之間大約六到八個(gè)月的滯后為污染控制提供了有效窗口。為檢測個(gè)別開發(fā)者頻繁迭代可能帶來的潛在利用,研究團(tuán)隊(duì)運(yùn)營每月更新的私人排行榜。月度分?jǐn)?shù)變化很小,排名保持穩(wěn)定,確認(rèn)監(jiān)控措施保障了基準(zhǔn)測試的完整性。
06
總結(jié)與展望
這項(xiàng)工作的主要貢獻(xiàn)包括三個(gè)方面:首先,LiveClin是一個(gè)新穎、動(dòng)態(tài)、多模態(tài)的基準(zhǔn)測試,評估完整的臨床路徑,設(shè)計(jì)為抗污染并持續(xù)更新;其次,一個(gè)可擴(kuò)展且經(jīng)過驗(yàn)證的AI-人類工作流程,用于生成和維護(hù)模擬臨床實(shí)踐的高質(zhì)量評估,證明比僅人類撰寫更具成本效益,并產(chǎn)生更具挑戰(zhàn)性的問題;第三,對26個(gè)領(lǐng)先LLM的全面評估,為最先進(jìn)的臨床推理提供了新的基線,并揭示了關(guān)鍵的、獨(dú)特的失敗模式,為未來模型開發(fā)提供信息。
LiveClin標(biāo)志著從靜態(tài)知識(shí)測試到應(yīng)用臨床推理動(dòng)態(tài)評估的范式轉(zhuǎn)變。通過提供持續(xù)演進(jìn)、基于臨床的挑戰(zhàn),研究團(tuán)隊(duì)旨在指導(dǎo)醫(yī)療LLM的發(fā)展,朝著更大的現(xiàn)實(shí)世界可靠性和安全性邁進(jìn)。評估結(jié)果顯示了明顯的性能差距,頂級案例準(zhǔn)確率僅為35.7%,揭示了頂級模型中期的綜合困難以及專業(yè)模型后期階段的上下文丟失等獨(dú)特失敗模式。這些發(fā)現(xiàn)為醫(yī)療AI的進(jìn)一步發(fā)展指明了方向,強(qiáng)調(diào)了在強(qiáng)大通用基礎(chǔ)模型之上進(jìn)行針對性、領(lǐng)域特定優(yōu)化的重要性。
----- END -----
wisemodel相關(guān):
系列模型:
![]()
關(guān)于wisemodel更多
![]()
1
歡迎持續(xù)關(guān)注和支持
開源社區(qū)建設(shè)需要長期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。
2
歡迎加盟wisemodel開源社區(qū)
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。
向上滑動(dòng)查看
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.