2025年末到2026年初,醫療AI占據了AI圈的絕對C位。
國內,螞蟻阿福線上線下全渠道“地毯式”推廣,百川智能發布新一代醫療大模型Baichuan-M3;國外,OpenAI、Anthropic、谷歌三大巨頭也如同事先寫好劇本,在一周內先后發布各自的醫療健康AI應用。
據不完全統計,全球已發布的醫學大模型數量超過300個。在這一輪AI引領的技術革新浪潮中,盡管各方開發者都謹慎地表示AI不會取代醫生,但面對AI已經展現出的強大能力,幾乎沒人懷疑醫療行業將迎來深刻變革。AI不會甘心止步于外圍的輕問診和健康咨詢,而是要進入嚴肅醫療,參與復雜疾病的臨床診療。
當下最關鍵的問題是,在人命關天的醫療場景,如何克服大模型的“幻覺”,盡量規避安全隱患。
在國家傳染病醫學中心(上海)主任張文宏近日公開表達對AI的審慎態度之后,公眾號“張強醫生”也發文指出,當前醫療AI最容易制造的幻覺,不是“胡說八道”,而是“看起來完全正確”,甚至還能給出參考文獻。不僅對患者極具說服力,對資歷尚淺的年輕醫生也極具誘惑力。
有臨床專家指出,如同一名醫生必須通過醫師資格考試才能上崗,醫療大模型要進入臨床,也必須建立科學嚴謹的評價標準。
目前,針對醫療AI的評價體系正在逐步構建。事實上,在這方面的探索,中國已經走在世界前列。
Nature旗下數字醫學領域全球頂級期刊《npj Digital Medicine》近期發布了一項來自中國科研團隊的最新成果——全球首個用于評估醫療AI臨床適用性的標準:“臨床安全-有效性雙軌基準”(CSEDB,Clinical Safety-Effectiveness Dual-Track Benchmark)。
CSEDB由來自中國的未來醫生科研團隊聯合32位國內頂尖臨床專家共同制定,其核心價值在于,打破了過往以答題準確率評估醫療AI能力的模式,在全球范圍內首次引入“安全性”與“有效性”雙軌評價體系,全面貼合真實臨床決策場景。
基于該標準對全球多個主流AI大模型開展的系統性測評中,由未來醫生團隊打造的MedGPT各項評分均位列第一。
這也意味著,作為國內最早發布的醫療大模型之一,MedGPT的底層架構、技術路線和臨床數據沉淀,已然經得起模擬臨床實戰的嚴格測試,可以代表醫療AI在嚴肅醫療領域的發展方向。
同時,該項獲得國際頂尖學術期刊驗證的研究成果,還在某種程度上回應了醫生群體對大模型可靠性的擔憂,提供了抑制“幻覺”的參考樣本,為醫療大模型的迭代優化指明了方向,也為醫療AI進入嚴肅診療場景奠定了基礎。
全球醫生組織中國總代表、GlobalMD創始人Tim Shi(時占祥)近日也在海外社交媒體上為此點贊:由中國推動的標準+MedGPT的表現=真正的差異化以及更聰明的風投資產。
![]()
頂刊背書,“實戰”領先的大模型
CSEDB評估標準能在《npj Digital Medicine》發表,其學術含金量已毋庸置疑。
《npj Digital Medicine》目前屬于中科院醫學大類1區Top期刊(代表在所屬學科的所有期刊中,影響力排名前5%),2024年影響因子15.1(超過10便已是國際頂尖水平)。
參與制定CSEDB的團隊也堪稱豪華,32位臨床專家均來自北京協和醫院、中國醫學科學院腫瘤醫院、北京大學口腔醫院、中國醫學科學院阜外醫院、中國人民解放軍總醫院、復旦大學附屬華山醫院、上海市同濟醫院等頂尖醫療機構的23個核心專科。
研究團隊指出,目前對醫療大模型臨床能力的評估主要依賴USMLE式標準化醫學考試和專業問答數據集,難以反映真實臨床實踐的復雜性。
“沒有一個病人是按照指南去生病的,每個病人的疾病都是特異性、個體化的。”參與標準制定的專家團隊成員、北京協和醫院胸外科主任醫師梁乃新教授指出,臨床診療是遵循共性(指南)與運用經驗、能力解決個體化問題相結合的過程,還需要平衡安全性和有效性。
為突破現有評估框架的局限,研究團隊建立了涵蓋26個專科和多樣化患者群體(包括多重用藥的老年患者和免疫缺陷個體)的QA框架,共計2069個開放式問題,全方位模擬臨床診療的復雜場景。同時,聚焦安全性和有效性兩大核心維度,基于臨床專家對風險和獲益關系的共識,設置了30項評估指標,包括17項安全性指標和13項有效性指標,并引入1-5級風險分層設計,對不同指標進行加權打分,使評估結果能更準確地反映大模型對臨床結局的影響。
![]()
注:安全性和有效性指標參考了2002年衛生部發布的《醫療事故分級標準(試行)》
相比其他采用“標準問-標準答”模式的靜態評測,CSEDB評估標準顯然更貼近實際診療需求,也更具挑戰性。
評估結果顯示,作為醫療領域專用模型,MedGPT的表現顯著優于通用模型,總體得分、安全性得分和有效性得分均位列第一。相比第二名,MedGPT總體得分高出15.3%,安全性得分高出19.8%。特別是在大多數模型安全性表現偏弱的情況下,只有MedGPT安全性得分高于有效性得分。這也與臨床專家安全性大于有效性的價值取向保持了高度一致。
![]()
圖片來自《npj Digital Medicine》發布論文《A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains(一種用于評估醫療大語言模型在臨床領域安全性和有效性的新型評估基準)》
未來醫生產研負責人廉澤良告訴健聞咨詢,MedGPT從立項開始,就將臨床專家奉為圭臬的安全性和有效性植入底層代碼,致力于讓醫療AI“像醫生一樣思考”。2023年發布之初,MedGPT在面向真實患者的試驗中,便已展現出不俗的臨床適配能力——與三甲醫院主治醫師的診斷一致性高達96%。
廉澤良表示,MedGPT在此次CSEDB評估中再度展現出的領先優勢,主要源于兩個方面:
一是模擬人腦認知邏輯的三層架構,即“快系統(類比大腦皮層執行語義任務)+慢系統(類比前額葉深度推理)+ACC層(類比前扣帶皮層,調和快慢系統矛盾)”,三層架構形成強耦合閉環,少一層即退化為普通模型。其中,快系統調用通用模型,快速響應用戶需求,負責理解與溝通;慢系統基于專家經驗,可顯著抑制通用模型的“幻覺”,負責準確診斷。慢系統還集成了雙飛輪結構,小飛輪基于臨床指南預設診療路徑,大飛輪強化學習并復制專家臨床經驗,雙飛輪協調聯動,構建起可持續優化的完整閉環。
![]()
圖片來自未來醫生商業計劃書
二是專家資源和優質的結構化驗證數據。經過逾120位三甲醫院專家驗證的“癥狀-疾病-用藥”三元組數據,已經嵌入MedGPT的知識底座。而在基于MedGPT打造的未來醫生平臺上,如今已有超過1萬名醫生與患者保持互動,每周可沉淀2萬條真實診療反饋,通過“反饋即迭代”的飛輪機制,MedGPT的準確率每月可提升1.2%-1.5%。
在廉澤良看來,這些都構成了MedGPT不可復制的能力壁壘,可以至少領先同行2-3年。
人機協同的“未來醫生”模式
用醫聯集團/未來醫生創始人、CEO王仕銳的話說,未來醫生的AI訓練過程好比頂級專家指導“天才學生”。以此類比,未來醫生平臺的工作機制,就如同頂級專家帶著“天才學生”一起會診。
2025年8月,未來醫生APP正式上線,并基于該平臺推出權威專家在線免費問診服務。據官方介紹,未來醫生聚集了來自全國A++++級別醫院(如解放軍總醫院、北京協和、華西、上海瑞金、復旦華山等)的專家團隊,包括曾擔任國家級學術委員會主委、副主委的行業權威專家及醫療團隊,可覆蓋95%的常見疾病和大多數疑難雜癥。
不同于其他AI問診平臺,大模型應用只是作為線上服務的入口,起到導流的作用,始終聚焦嚴肅醫療的未來醫生平臺,構建起了一套精妙的人機協同“四級分診體系”:AI初篩與結構化問診、專科智能匹配、多學科會診(MDT)介入、權威專家復核與決策。
該流程確保了病例在專業遞進中得到精準處理,既避免患者走彎路貽誤病情,也杜絕了醫療資源的浪費。
在此過程中,AI與醫生分工明確,AI承擔科普問答、信息整合、病例分揀、輔助決策等工作,而醫生可以從繁雜的程序化工作中抽身,將精力集中于核心診療環節。專家及團隊作為診療決策者與責任主體,會對AI生成的診療建議進行終審把控,并出具簽字/簽章的規范醫囑。通過“醫生授權+技術輔助”,確保診療的安全性與有效性。
另一大亮點是,借助完整復制專家診療和溝通能力的智能體,目前在線下尚未形成體系,需要額外支付高額費用的MDT,在未來醫生平臺成為免費的常規服務。
在實際案例中,未來醫生對急危重癥和疑難病癥的處理,均不乏出色表現。
據未來醫生官方公眾號披露,2025年9月,一位用戶在父親突發肢體無力、言語不清癥狀時,使用未來醫生APP發出求助信息,13秒后便收到平臺預警,提示疑似急性缺血性腦卒中。
![]()
圖片來自微信公眾號:未來醫生官方號
隨后,平臺的四級分診機制開始運行,在救護車趕到之前,一份就醫指南已經發到該用戶的手機。
![]()
圖片來自微信公眾號:未來醫生官方號
“這份清晰的指引,讓在慌亂中的我找到了方向。”用戶在自述中這樣寫道。最終患者及時送醫,轉危為安,CT檢查報告與平臺會診結果高度一致。
另一位用戶,也是一位母親,7歲女兒腳痛數月,多方求醫仍未得到有效診治,機緣巧合中下載使用了未來醫生APP,提交孩子病歷資料后,經過兒科、骨科和風濕免疫科專家智能體MDT會診,最終得到北京協和醫院風濕免疫科主任醫師趙巖教授親自給出的診斷建議:需排除幼年特發性關節炎。
當她帶著孩子去醫院檢查時,連醫生都感到吃驚:你們怎么想到要來查這個?聽到趙巖的名字,那位醫生當即打消疑問。不出意外,最終檢查結果也證實了趙巖教授的推測。
通過這些案例也可以看到,AI賦能的互聯網問診,正在如何超越過去所謂的“輕問診”“輕咨詢”:線上平臺能夠完成的,不再是常見病、慢性病的復診開藥,對于急危重癥和疑難病癥,即使不能直接實施檢驗檢查,但通過經驗豐富的頂級專家團隊與AI的緊密協作,已經能夠給患者提供準確清晰的就醫指南,其診斷建議甚至能與最終診斷結果高度匹配。至此,線上線下醫療資源也實現了高效協同。
過去十年來,國家一直力推分級診療,構建基層首診、上下聯動的有序格局,以解決醫療資源分布不均衡、大醫院人滿為患的痼疾。從這個角度看,未來醫生的模式探索,還具有更深遠的意義:它呈現了一種基于“AI首診”的分級診療路徑,有望彌補基層能力不足,化解上下聯動中的利益分配難題。
邊賽跑、邊鋪路的硬核“玩家”
今時今日,醫療AI賽道的熱鬧景象,很難不讓人回想起十年前互聯網醫療創業者的勃勃雄心。
AI大模型的橫空出世,也讓互聯網醫療賽道充滿新的想象空間——可以借助AI在高度復雜和專業的醫療領域再掘進一尺。
十多年前互聯網醫療的行業愿景——打破地域時間限制、提升優質醫療資源可及性,本質上是線下醫療資源(包括醫和藥)向線上平移,相比之下,今天的醫療AI更有可能創造增量,實現優質醫療資源的“擴容”。比如大部分人都能首先想到的:將學習了大醫院大專家臨床經驗的智能體推廣到低資源地區或基層醫療機構。
在北京協和醫院胸外科主任醫師梁乃新教授看來,在大醫院,AI可以讓專科醫生如虎添翼,但更重要的應用場景是在基層社區,通過AI去強化全科醫生、家庭醫生的能力,為上級大醫院篩選專科病例,而不是讓患者直接涌向大醫院的專家診室。
2025年11月,國家衛健委等多部門聯合發布《關于促進和規范“人工智能+醫療衛生”應用發展的實施意見》,其中明確提出,到2030年,基層診療智能輔助應用基本實現全覆蓋。
但正如張文宏、張強等醫生所擔心的,存在幻覺的醫療大模型,到了經驗和資歷都欠缺的年輕醫生手里,結果可能適得其反。另外,健聞咨詢此前也報道過,三甲醫院訓練出來的頂配大模型,在基層還可能“水土不服”。
基于這些行業痛點,更能看出未來醫生團隊正在開展的工作之可貴。當互聯網大廠基于自身資源優勢和商業基因,高舉高打搶占用戶心智、爭奪AI流量入口時,他們則專注于修煉內功,試圖解決AI進入嚴肅醫療面臨的核心問題。
比如通過算法機制和優質醫療數據的協同,不斷抑制大模型的“幻覺”產生率,尤其是在數據方面。
作為積極擁抱AI的臨床專家,梁乃新教授對數據質量的觀點極具代表性,在他看來,所謂AI(Artificial Intelligence),越是Intelligence的階段,越要重視Artificial的data(數據)。
MedGPT在訓練階段,就對規則庫質量、醫生的權威性提出高要求,而不是單純堆砌海量數據;在后續迭代中,也需專家每天根據真實病例給予額外的、在指南中無法體現的反饋。特別是指南之外的專家經驗,更具含金量。因為指南相比最前沿的醫學進展和臨床中的鮮活經驗,總是具有滯后性。
據王仕銳透露,對于那些不成文的專家經驗,未來醫生會跟專家反復交流。目前平臺上剛上線的專家每天會對至少1個以上的案例給出明確回復,“專家需要非常了解和信任AI才能做到這一點。”
信任并非對AI放任不管,而是需要明確界定其能力與責任的范圍,未來醫生攜手臨床專家,探索建立臨床適用性標準的重要意義也在于此。
正如研究團隊在《npj Digital Medicine》發表的論文所言,CSEDB為模型優化和監管審批提供了科學依據,并為大模型從受控實驗室環境安全有效地轉化到真實臨床實踐鋪平了道路。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.