LiveClin:239位醫(yī)生打造“實(shí)時(shí)+臨床全路徑”的醫(yī)療評測基準(zhǔn)

2026-03-22 17:48:47　來源: wisemodel開源社區(qū)

北京舉報(bào)

分享至

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)，始終堅(jiān)持“中立、開放、共建、共創(chuàng)、合作”五項(xiàng)基本原則，歡迎加入共同成長。

大語言模型（LLM）在醫(yī)療健康領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力，從輔助復(fù)雜診斷到個(gè)性化患者護(hù)理，這些強(qiáng)大的工具正在逐步改變醫(yī)療實(shí)踐的面貌。然而，將這些工具安全有效地整合到臨床實(shí)踐中，完全取決于我們對其真實(shí)能力的嚴(yán)格評估能力。隨著通用知識(shí)與專家級臨床推理之間差距的擴(kuò)大，開發(fā)復(fù)雜、基于臨床的基準(zhǔn)測試不僅是學(xué)術(shù)進(jìn)步的問題，更是構(gòu)建可信醫(yī)療人工智能的前提條件。

項(xiàng)目地址

https://wisemodel.cn/datasets/FreedomIntelligence/LiveClin

當(dāng)前醫(yī)療大語言模型的評估領(lǐng)域存在兩個(gè)關(guān)鍵局限性。首先是數(shù)據(jù)污染問題：靜態(tài)基準(zhǔn)測試如MedQA等不僅容易受到數(shù)據(jù)污染的影響，還面臨知識(shí)過時(shí)的風(fēng)險(xiǎn)。隨著模型在日益擴(kuò)大的網(wǎng)絡(luò)規(guī)模語料庫上進(jìn)行訓(xùn)練，流行靜態(tài)基準(zhǔn)測試的問題和答案不可避免地被吸收到其訓(xùn)練集中。這種廣泛的污染意味著模型越來越多地在已經(jīng)見過的數(shù)據(jù)上進(jìn)行測試，導(dǎo)致性能分?jǐn)?shù)虛高，這嚴(yán)重威脅了評估的完整性。

其次是評估設(shè)計(jì)的局限性：現(xiàn)有的單輪評估與患者護(hù)理的縱向性質(zhì)不一致。通過在孤立的、合成的快照中評估推理能力，即使是先進(jìn)的系統(tǒng)如MedXpertQA和AgentClinic也將患者管理簡化為一系列不連貫的任務(wù)。這種方法無法評估導(dǎo)航患者整個(gè)臨床路徑所需的綜合推理能力，從初始呈現(xiàn)到長期管理。

圖1. LiveClin 模擬真實(shí)患者全臨床路徑的動(dòng)態(tài)推理示例

為了量化數(shù)據(jù)污染和知識(shí)過時(shí)的雙重影響，研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)縱向試點(diǎn)研究。結(jié)果顯示，模型在較舊的、可能被污染的數(shù)據(jù)上的表現(xiàn)與在新的、當(dāng)代數(shù)據(jù)上的表現(xiàn)之間存在顯著差距。以GPT-5為例，在其知識(shí)截止日期內(nèi)的數(shù)據(jù)上得分高達(dá)45.0%，但在截止日期后發(fā)布的案例上下降了近10個(gè)百分點(diǎn)。這種模式在各個(gè)模型中一致存在，量化了數(shù)據(jù)污染的扭曲效應(yīng)和知識(shí)過時(shí)的影響。

LiveClin基準(zhǔn)測試概述

為解決上述挑戰(zhàn)，研究團(tuán)隊(duì)引入了LiveClin——一個(gè)旨在近似真實(shí)世界臨床實(shí)踐的實(shí)時(shí)基準(zhǔn)測試。該基準(zhǔn)測試從當(dāng)代、同行評審的病例報(bào)告中構(gòu)建，每半年更新一次，確保臨床時(shí)效性并抵抗數(shù)據(jù)污染。研究團(tuán)隊(duì)使用經(jīng)過驗(yàn)證的AI-人類工作流程（涉及239名醫(yī)生），將真實(shí)患者病例轉(zhuǎn)化為復(fù)雜的多模態(tài)評估場景，覆蓋整個(gè)臨床路徑。基準(zhǔn)測試目前包含1,407個(gè)病例報(bào)告和6,605個(gè)問題。

LiveClin的核心創(chuàng)新在于其動(dòng)態(tài)性和臨床真實(shí)性。與靜態(tài)基準(zhǔn)測試不同，LiveClin通過持續(xù)更新的機(jī)制確保評估內(nèi)容始終反映最新的醫(yī)學(xué)知識(shí)和臨床實(shí)踐。每個(gè)病例都被轉(zhuǎn)化為多階段考試，評估模型是否能夠順序整合反映患者病情演變的多模態(tài)信息。這種設(shè)計(jì)模擬了從初始評估到長期管理的完整臨床路徑，在每個(gè)關(guān)鍵決策點(diǎn)逐步引入新的臨床信息和多樣化的影像模態(tài)（如X光、MRI、病理、CT），以挑戰(zhàn)模型在演進(jìn)場景中的推理能力。

圖. 不同發(fā)表時(shí)間的數(shù)據(jù)集上大語言模型（LLM）的準(zhǔn)確率對比。研究發(fā)現(xiàn)模型在較早、可能受到數(shù)據(jù)污染的數(shù)據(jù)上的表現(xiàn)，與在最新、當(dāng)代數(shù)據(jù)上的表現(xiàn)之間存在顯著差距。以 GPT-5 為例：在其知識(shí)庫覆蓋范圍內(nèi)的數(shù)據(jù)上，其得分可高達(dá) 45.0%；但在知識(shí)截止時(shí)間之后發(fā)表的病例上，成績則下降了近 10 個(gè)百分點(diǎn)。

數(shù)據(jù)構(gòu)建流程

2.1臨床分類體系

LiveClin的分類體系是一個(gè)多層次性能分析的基礎(chǔ)框架，旨在克服現(xiàn)有基準(zhǔn)測試單一分?jǐn)?shù)、范圍狹窄的局限性。該體系采用三級層次結(jié)構(gòu)：第一級為ICD-10章節(jié)，包含16個(gè)臨床連貫的章節(jié)，提供模型在主要醫(yī)學(xué)專業(yè)領(lǐng)域能力的宏觀視角；第二級為疾病群組，定義了72個(gè)不同的疾病群組，平衡了特異性和統(tǒng)計(jì)可靠性的需求；第三級為ICD-10代碼，實(shí)現(xiàn)細(xì)粒度的診斷級評估，對于識(shí)別模型在眾多疾病中的具體優(yōu)勢和劣勢至關(guān)重要。

2.2病例構(gòu)建

病例構(gòu)建階段專注于建立高質(zhì)量、結(jié)構(gòu)化的當(dāng)代臨床病例語料庫。研究團(tuán)隊(duì)首先從PubMed Central開放獲取子集中程序化檢索2025年上半年發(fā)布的所有XML格式病例報(bào)告。然后，自定義構(gòu)建的流程解析每個(gè)文件，提取關(guān)鍵元數(shù)據(jù)并分析文章結(jié)構(gòu)。描述患者病程的部分（如病例呈現(xiàn)）被聚合形成核心病例敘述，而包含作者分析的部分（如討論）被整合為病例討論。為支持多模態(tài)能力評估，該流程還將所有表格數(shù)據(jù)轉(zhuǎn)換為Markdown格式，并提取所有相關(guān)圖像的持久URL及其標(biāo)題。

在采樣階段，研究團(tuán)隊(duì)首先使用gpt-4.1-2025-04-14對每個(gè)病例報(bào)告進(jìn)行三級分類。然后實(shí)施分層抽樣協(xié)議，以72個(gè)二級疾病群組為指導(dǎo)，每個(gè)群組抽樣30個(gè)獨(dú)特病例，同時(shí)優(yōu)先考慮每個(gè)樣本中三級疾病的多樣性，以減輕常見疾病的過度代表性。這一嚴(yán)格程序最終產(chǎn)生了2,150份高質(zhì)量病例報(bào)告的語料庫。

2.3考試生成

考試生成階段采用生成器-批評器架構(gòu)，將靜態(tài)報(bào)告轉(zhuǎn)化為模擬整個(gè)臨床路徑的多步驟問題。生成器代理首先將每個(gè)病例重構(gòu)為漸進(jìn)式臨床挑戰(zhàn)，創(chuàng)建簡潔的初始臨床場景，然后生成3-6個(gè)漸進(jìn)式、10選項(xiàng)多選題序列。每個(gè)問題的上下文在適當(dāng)?shù)墓ぷ髁鞒滩襟E策略性地引入新的臨床細(xì)節(jié)，探測模型整合演進(jìn)信息的能力。

批評器代理負(fù)責(zé)閉環(huán)質(zhì)量控制。一旦生成器產(chǎn)生問題集，批評器在兩個(gè)關(guān)鍵維度上評估它：臨床準(zhǔn)確性和認(rèn)知復(fù)雜性。如果問題被標(biāo)記，批評器提供可操作的反饋，促使生成器修訂該集合。這個(gè)精煉循環(huán)持續(xù)進(jìn)行，直到問題集達(dá)到兩個(gè)標(biāo)準(zhǔn)：100%的臨床準(zhǔn)確性（確保所有內(nèi)容事實(shí)正確）和超過60%問題的高認(rèn)知復(fù)雜性。為確保效率，任何在10個(gè)循環(huán)內(nèi)未能收斂的集合將被丟棄。

2.4質(zhì)量檢查

質(zhì)量檢查階段實(shí)施多層質(zhì)量保證協(xié)議，遵循保守原則：任何有潛在缺陷的問題都被拒絕。該協(xié)議結(jié)合AI預(yù)篩選和多層級醫(yī)生驗(yàn)證。所有評估者應(yīng)用兩個(gè)嚴(yán)格標(biāo)準(zhǔn)：事實(shí)驗(yàn)證（確保與源病例完美對齊）和邏輯可解性（確認(rèn)答案可從可用信息中推導(dǎo)）。AI驅(qū)動(dòng)的預(yù)篩選首先由法官代理進(jìn)行裁決，作為高度保守的預(yù)過濾器，自主拒絕根本上有缺陷的問題。隨后，239名持證醫(yī)生進(jìn)行兩階段驗(yàn)證：標(biāo)注階段由主治醫(yī)生評估每個(gè)問題；檢查階段由資深醫(yī)生審查標(biāo)注。任何差異都會(huì)觸發(fā)與標(biāo)注者的修訂循環(huán)，直到達(dá)成共識(shí)。

圖3. LiveClin 的病例檢索、生成與過濾流程

實(shí)驗(yàn)結(jié)果與分析

3.1整體性能評估

研究團(tuán)隊(duì)對26個(gè)領(lǐng)先的大語言模型進(jìn)行了全面評估。結(jié)果顯示，專有模型領(lǐng)先，o3和GPT-5位居榜首。在100個(gè)隨機(jī)抽樣的LiveClin病例上與醫(yī)生進(jìn)行基準(zhǔn)對比，主任醫(yī)師準(zhǔn)確率最高，主治醫(yī)生略低，兩組都超過了大多數(shù)模型。只有GPT-5和o3略微超過主治醫(yī)生，但仍未達(dá)到主任醫(yī)師的水平。表現(xiàn)最好的模型僅達(dá)到35.7%的案例準(zhǔn)確率，這凸顯了基準(zhǔn)測試的難度。

開源模型正在縮小差距，大規(guī)模模型如InternVL-3.5-241B接近專有領(lǐng)導(dǎo)者，高效設(shè)計(jì)如GLM-4V-9B超過了較弱的專有系統(tǒng)如GPT-4o。研究發(fā)現(xiàn)挑戰(zhàn)了單純通過擴(kuò)展或新版本發(fā)布就能帶來更好臨床推理能力的信念。例如，Claude 3.5 Sonnet超過了其后繼者Claude 3.7 Sonnet，在Gemini系列中，Gemini 2.0 Flash得分高于Gemini 2.5 Flash。這標(biāo)志著自動(dòng)升級帶來的收益已經(jīng)結(jié)束，指向需要針對性的、特定領(lǐng)域的優(yōu)化。

圖. LiveClin的數(shù)據(jù)分布與統(tǒng)計(jì)

3.2深度分析

對臨床路徑上的錯(cuò)誤模式分析揭示了不同模型類別的獨(dú)特失敗模式。頂級專有模型如o3傾向于在路徑中期失敗，錯(cuò)誤在認(rèn)知要求高的診斷與解釋階段達(dá)到峰值。相比之下，開源醫(yī)療模型表現(xiàn)出后期失敗模式，錯(cuò)誤集中在最后四分之一的隨訪階段，表明長上下文保留的關(guān)鍵性崩潰。通用模型如GLM-4V-9B表現(xiàn)出前端加載的錯(cuò)誤特征，在過程早期就出現(xiàn)失誤，這凸顯了提高從初始臨床呈現(xiàn)進(jìn)行有效推理能力的迫切需求。

對ICD-10章節(jié)的分析顯示，模型性能高度可變，揭示了獨(dú)特的專業(yè)化以及普遍的弱點(diǎn)。例如，模型在由清晰系統(tǒng)邏輯支配的領(lǐng)域（如內(nèi)分泌疾病）表現(xiàn)出色，但在需要細(xì)致綜合的領(lǐng)域（如腫瘤）普遍表現(xiàn)不佳。有趣的是，這種專業(yè)化超越了規(guī)模：頂級o3（68.4%）和緊湊的Claude-3.5-Sonnet（63.2%）在精神和行為障礙方面都達(dá)到了出色的準(zhǔn)確率。

圖4. 26款大模型與人類真實(shí)醫(yī)生在 LiveClin 上的 Case Accuracy（病例完全通關(guān)率）評測結(jié)果比較

3.3多模態(tài)分析

多模態(tài)推理分析顯示，簡單數(shù)據(jù)提取與復(fù)雜推理之間存在關(guān)鍵差距。模型自信地解釋結(jié)構(gòu)化數(shù)據(jù)如圖表（75.1%），但在需要專家級推理時(shí)表現(xiàn)不佳，病理（59.6%）和生物信號（53.6%）等模態(tài)上的表現(xiàn)較差。盡管專業(yè)訓(xùn)練顯示出希望，MedGemma-27B在生物信號方面表現(xiàn)出驚人的能力（71.4%），但基礎(chǔ)穩(wěn)健性仍然是關(guān)鍵挑戰(zhàn)。即使是最有能力的模型也可能在看似簡單的輸入如人口統(tǒng)計(jì)表上出錯(cuò)，這凸顯了這一核心問題。

圖. 各款大模型在不同醫(yī)學(xué)影像及表格上的準(zhǔn)確率熱力圖

消融研究

為驗(yàn)證基于代理的流程中每個(gè)組件的貢獻(xiàn)，研究團(tuán)隊(duì)在隨機(jī)抽樣的200份病例報(bào)告上進(jìn)行了消融研究。結(jié)果顯示，基于LLM的生成在可擴(kuò)展性和問題復(fù)雜性方面都有顯著改善。單獨(dú)運(yùn)行時(shí)，生成器代理將時(shí)間和財(cái)務(wù)成本相比醫(yī)生撰寫降低了近兩個(gè)數(shù)量級，同時(shí)將簡單問題的比例從38.5%降低到16.5%。添加批評器代理對事實(shí)準(zhǔn)確性至關(guān)重要，將醫(yī)生驗(yàn)證的準(zhǔn)確率從84.5%提高到93.0%，并進(jìn)一步將簡單問題比例降低到5.5%。這種迭代精煉對于大規(guī)模產(chǎn)生可靠、臨床要求高的內(nèi)容至關(guān)重要。

最終的法官代理不僅作為過濾器，更是人類審查過程的關(guān)鍵增強(qiáng)。雖然其包含名義上將通過率降低到89.5%，但這種降低代表了一個(gè)積極的結(jié)果：更嚴(yán)格的質(zhì)量標(biāo)準(zhǔn)。通過為醫(yī)生提供結(jié)構(gòu)化的審計(jì)跟蹤和來自源病例的直接證據(jù)，法官使他們能夠識(shí)別可能被忽視的細(xì)微缺陷。

可持續(xù)性與污染控制

LiveClin的長期可靠性依賴于可持續(xù)性、污染控制和偏見評估。研究團(tuán)隊(duì)維持每半年一次的醫(yī)生審查更新周期作為可靠實(shí)時(shí)醫(yī)療AI評估的核心要求。每個(gè)周期替換整個(gè)評估集，重新評估現(xiàn)有模型，并包括新發(fā)布的模型。利用AI-人類協(xié)作工作流程，前六個(gè)月的病例被收集、驗(yàn)證并在前兩周內(nèi)發(fā)布。

為限制污染風(fēng)險(xiǎn)，研究團(tuán)隊(duì)實(shí)施定期更新，遵循LiveBench和LiveCodeBench的做法。模型數(shù)據(jù)收集與公開發(fā)布之間大約六到八個(gè)月的滯后為污染控制提供了有效窗口。為檢測個(gè)別開發(fā)者頻繁迭代可能帶來的潛在利用，研究團(tuán)隊(duì)運(yùn)營每月更新的私人排行榜。月度分?jǐn)?shù)變化很小，排名保持穩(wěn)定，確認(rèn)監(jiān)控措施保障了基準(zhǔn)測試的完整性。

總結(jié)與展望

這項(xiàng)工作的主要貢獻(xiàn)包括三個(gè)方面：首先，LiveClin是一個(gè)新穎、動(dòng)態(tài)、多模態(tài)的基準(zhǔn)測試，評估完整的臨床路徑，設(shè)計(jì)為抗污染并持續(xù)更新；其次，一個(gè)可擴(kuò)展且經(jīng)過驗(yàn)證的AI-人類工作流程，用于生成和維護(hù)模擬臨床實(shí)踐的高質(zhì)量評估，證明比僅人類撰寫更具成本效益，并產(chǎn)生更具挑戰(zhàn)性的問題；第三，對26個(gè)領(lǐng)先LLM的全面評估，為最先進(jìn)的臨床推理提供了新的基線，并揭示了關(guān)鍵的、獨(dú)特的失敗模式，為未來模型開發(fā)提供信息。

LiveClin標(biāo)志著從靜態(tài)知識(shí)測試到應(yīng)用臨床推理動(dòng)態(tài)評估的范式轉(zhuǎn)變。通過提供持續(xù)演進(jìn)、基于臨床的挑戰(zhàn)，研究團(tuán)隊(duì)旨在指導(dǎo)醫(yī)療LLM的發(fā)展，朝著更大的現(xiàn)實(shí)世界可靠性和安全性邁進(jìn)。評估結(jié)果顯示了明顯的性能差距，頂級案例準(zhǔn)確率僅為35.7%，揭示了頂級模型中期的綜合困難以及專業(yè)模型后期階段的上下文丟失等獨(dú)特失敗模式。這些發(fā)現(xiàn)為醫(yī)療AI的進(jìn)一步發(fā)展指明了方向，強(qiáng)調(diào)了在強(qiáng)大通用基礎(chǔ)模型之上進(jìn)行針對性、領(lǐng)域特定優(yōu)化的重要性。

----- END -----

wisemodel相關(guān)：

系列模型：

關(guān)于wisemodel更多

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅(jiān)持和投入，更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù)，歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

歡迎加盟wisemodel開源社區(qū)

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果，鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等，在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹，也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長劉道全創(chuàng)立，旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者，以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等，還有投資機(jī)構(gòu)、科技媒體等，共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.