337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

百川M3醫療大模型開源,「嚴肅問診」定義AI醫療新能力

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區,始終堅持“中立、開放、共建、共創、合作”五項基本原則,歡迎加入共同成長。

新一代醫療大模型 Baichuan-M3正式開源,其在全球最權威的醫療 AI 評測 HealthBench 中以 65.1 分的綜合成績位列全球第一;在專門考驗復雜決策能力的 HealthBench Hard 上,也以44.4分的成績奪冠。這一成績,不僅刷新了 HealthBench 的最高分,更首次在醫療領域實現了對 GPT-5.2 的全面超越。在OpenAI引以為傲的低幻覺領域,M3也實現了超越,幻覺率3.5全球最低。

此外,M3 還首次具備了原生的“端到端”嚴肅問診能力。它能像醫生一樣主動追問、逐層逼近,把關鍵病史和風險信號問出來,進而在完整的信息上進行深度醫學推理。評測顯示,其問診能力顯著高于真人醫生的平均水平。Baichuan-M3已上線始智AI-wisemodel開源社區,歡迎大家前去體驗。


項目地址

https://wisemodel.cn/models/Baichuan-inc/Baichuan-M3-235B

01.

醫療溝通和推理能力超越GPT-5.2,

登頂世界第一

2025年5月份,OpenAI發布HealthBench,由 262 位來自 60 個國家的醫生共同構建,收錄了 5000 組高度逼真的多輪醫療對話,構建了全球最權威、也最貼近真實臨床場景的醫療評測集。這一事件,被視為 OpenAI 在醫療領域開始“重兵投入”,吹響進軍醫療的號角。

相當長一段時間里,無論是HealthBench總分還是 HealthBench-Hard 子集, GPT系列模型從未被超越。2025 年 8 月,百川開源醫療增強大模型 M2 在 HealthBench 上力壓 gpt-oss-120B、DeepSeek-R1 等同期所有開源模型,并在 HealthBench Hard 上取得 34.7 分的成績,僅次于GPT-5,成為全球唯二突破 32 分的模型。


2025年,強化學習無疑是新一代 Scaling Law 的技術中軸。在M2 發布后的五個月里,對強化學習系統進行了全面升級,將原本以患者模擬器和靜態 Rubric 為主的半動態反饋,升級為隨模型能力不斷演進的全動態 Verifier System。隨著監督信號持續變細、變難,模型得以不斷突破能力上限,使 M3 在復雜醫學問題上的表現實現躍遷,不僅在 HealthBench 總分上超越 OpenAI 最新模型 GPT-5.2,也在 HealthBench Hard 上登頂,成為當前全球醫療溝通和推理能力最強的醫療大模型。

02.

重構幻覺抑制的訓練范式,

刷新醫療幻覺率底線

幻覺是這一代大模型技術范式的通病,更是AI進入嚴肅醫療的攔路虎。在大多數場景幻覺只是體驗問題,而在嚴肅醫療場景可導致安全事件。

降低幻覺,一直是 OpenAI 最重視的研究方向之一。幾乎每一代 GPT 模型的幻覺率均為行業最低。OpenAI也是第一個單獨評測醫療能力和提供醫療服務的通用模型公司。

國內 DeepSeek等模型的普及,讓越來越多人開始使用AI并嘗試進行醫療健康咨詢。但大多數模型公司并沒有把“降幻覺”提升到與推理、代碼等相同的高度。用這樣的模型獲取健康咨詢和診療建議,對AI醫療的普及和醫患信任建立帶來很大困擾。

百川M3將醫療幻覺抑制前移至模型訓練階段,在強化學習過程中將醫學事實一致性作為核心訓練目標之一,將“知之為知之,不知為不知”直接作用于模型自身能力的形成過程。這一新的訓練方法將醫學事實可靠性內化為M3自身的基礎能力,使其在不借助任何外部系統的情況下,依然能夠基于自身醫學知識進行穩定、可信的作答。

通過將事實一致性約束融入訓練流程,M3重構了幻覺抑制的訓練范式,在不依賴工具或檢索增強的純模型設置下,醫療幻覺率3.5,超越GPT-5.2,達到全球最低水平。


03.

構建“嚴肅問診”新能力,

端到端問診超越真人醫生

除了強推理和低幻覺,端到端的問診能力是本次M3最重要的一項突破。2025年行業的技術共識是,用戶提供更完整的上下文,模型才有更好的表現。可在醫療領域,患者很難完整表達自己的病癥,需要模型像醫生一樣有能力把患者的混亂敘述轉變成可做診療決策的信息。

HealthBench代表了OpenAI對臨床場景的認知高度,然而它本質上是一個切片式的評測,考核的更像是“AI會不會回答問題”,而不是帶著診療目標,完整的患者信息收集。這也正說明了行業對問診重要性和建模思路的理解不足。

應用實踐中,通過prompt“你是一位經驗豐富的醫生”,激活模型的“角色扮演”是更常見的做法。這種方式得到的是模型的表演行為,而非內生能力,激活的是模型應該提問的行為,而不是必須獲取關鍵信息的思考。例如,臨床醫生面對患者的第一反應,永遠是先排除危急重癥,再考慮常規診療,這是刻在職業本能里的安全優先級。但常見的“角色扮演”的問診方式,無法將“紅旗征識別與處置”作為核心行動原則。這種不圍繞關鍵風險點展開的信息收集,即便對話看似完整,也難以支撐安全、可靠的臨床判斷,從根本上偏離了醫療“安全第一”的原則。

針對這一行業困境,團隊提出了“嚴肅問診范式”與“SCAN原則”,通過Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關聯追問)與Normative Protocol(規范化輸出),將臨床問診中高度依賴經驗的思維過程,第一次系統性地“白盒化”。

圍繞SCAN原則,借鑒醫學教育里長期使用的 OSCE 方法,聯合 150 多位一線醫生,搭建了 SCAN-bench 評測體系,該體系以真實臨床經驗作為“標準答案”,將診療過程拆解為病史采集、輔助檢查、精準診斷三大階段,通過動態、多輪的方式進行考核,完整模擬醫生從接診到確診的全過程。相比于HealthBench,SCAN-bench是更加全流程端到端的動態評測新范式。

同時,還使用原生模型訓練方法取代角色扮演prompt,針對GRPO無法穩定進行長對話訓練的問題,設計了新的 SPAR 算法,使模型能夠在有限對話輪次中,把臨床真正需要的關鍵問題問全、問準,把風險兜住,讓輸出經得起復核。

在實驗過程中發現,問診準確度每增加2%,診療結果準確度就會增加1%。評測結果顯示,M3 在SCAN的四個維度均顯著高于人類醫生基線水平,并大幅領先于國內外頂尖模型,成功構建了從精準的臨床問詢、深度醫學推理到安全可靠決策的閉環。


從 1 月初 OpenAI 發布醫療產品 ChatGPT Health,到今天 Anthropic 推出 Claude for Healthcare,AI 醫療正在全球范圍內提檔加速,競爭也正式進入深水區。在這場競速中,作為國內唯一專注醫療的大模型企業,百川持續突破低幻覺率、端到端問診和復雜臨床推理等核心能力,已從“跟隨者”躍遷為行業“引領者”與新范式的“定義者”,正以硬核實力扛起中國 AI 醫療發展的旗幟。

醫療應用“百小應”已同步接入 M3,面向醫生與患者開放相關能力。醫生可借助它推演問診與診療思路,患者及家屬也可通過該應用更系統地理解診斷、治療、檢查與預后背后的醫學邏輯。

編輯:成蘊年

----- END -----

wisemodel相關:

系列模型:


關于wisemodel更多


1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗外長:霍爾木茲海峽只對敵人關閉 中國、俄羅斯等國船只都安全通過了

伊朗外長:霍爾木茲海峽只對敵人關閉 中國、俄羅斯等國船只都安全通過了

閃電新聞
2026-03-26 10:48:55
蘋果憋了3年沒告訴你:你的充電器一直在"摸魚"

蘋果憋了3年沒告訴你:你的充電器一直在"摸魚"

全棧遛狗員
2026-03-25 23:00:33
小米捷報,誤傷寧德時代

小米捷報,誤傷寧德時代

ZAKER新聞
2026-03-26 22:10:32
在哪一瞬間,對你老公徹底失望了?網友:強行分居兩年,然后離婚

在哪一瞬間,對你老公徹底失望了?網友:強行分居兩年,然后離婚

另子維愛讀史
2026-03-24 21:15:00
49歲翁帆突傳“喜訊”!喪夫5個月后高調露面,狀態好到出人意料

49歲翁帆突傳“喜訊”!喪夫5個月后高調露面,狀態好到出人意料

查爾菲的筆記
2026-03-16 19:12:07
三次精準躲過斬首行動,卡尼突然現身反轉劇情,伊朗這局水太深了

三次精準躲過斬首行動,卡尼突然現身反轉劇情,伊朗這局水太深了

盛夏微涼
2026-03-24 18:10:08
王海團隊:已協助起訴黃天鵝

王海團隊:已協助起訴黃天鵝

南方都市報
2026-03-26 10:59:32
重返廣東!李春江有了新工作,亮相籃球場,崗位曝光,杜鋒期待

重返廣東!李春江有了新工作,亮相籃球場,崗位曝光,杜鋒期待

萌蘭聊個球
2026-03-26 13:02:53
2-0晉級八強!中國女網15歲新星連續爆冷真猛:下一輪對決王曦雨

2-0晉級八強!中國女網15歲新星連續爆冷真猛:下一輪對決王曦雨

李喜林籃球絕殺
2026-03-26 17:04:26
國防部:菲方侵權挑釁只會遭到更加堅決應對

國防部:菲方侵權挑釁只會遭到更加堅決應對

界面新聞
2026-03-26 16:00:27
浙江省人大常委會決定任免部分省政府組成部門主要負責人

浙江省人大常委會決定任免部分省政府組成部門主要負責人

浙江發布
2026-03-26 10:04:01
不僅抗炎,這還是眼睛、大腦最愛的營養!

不僅抗炎,這還是眼睛、大腦最愛的營養!

FitEmpire健身領域
2026-03-26 14:53:07
你知道的高檔會所里消費有多高?網友:貧窮限制了我的想象

你知道的高檔會所里消費有多高?網友:貧窮限制了我的想象

夜深愛雜談
2026-03-14 21:25:13
寫小說判十年,把生殖器放女孩嘴巴里判兩年九個月

寫小說判十年,把生殖器放女孩嘴巴里判兩年九個月

昊軒看世界
2026-03-24 19:56:42
澳門國民黨中將呂文貞突然說,我是李克農的人,該向組織報到了

澳門國民黨中將呂文貞突然說,我是李克農的人,該向組織報到了

鶴羽說個事
2026-03-25 21:56:09
薩拉赫離隊去向已明:不去沙特淘金,誓在歐洲巔峰再戰

薩拉赫離隊去向已明:不去沙特淘金,誓在歐洲巔峰再戰

樂道足球
2026-03-26 20:44:07
馬英九疑似患失智癥,臺律師:大陸已注意到,沒讓其擔任統一大使

馬英九疑似患失智癥,臺律師:大陸已注意到,沒讓其擔任統一大使

影孖看世界
2026-03-26 23:28:51
被伊朗打疼了?美以一邊要求停火30天,一邊密集調動特種部隊!

被伊朗打疼了?美以一邊要求停火30天,一邊密集調動特種部隊!

軍武次位面
2026-03-26 14:29:00
2026普法:強奸、通奸、嫖娼,只有這個行為會坐牢!

2026普法:強奸、通奸、嫖娼,只有這個行為會坐牢!

奇葩游戲醬
2026-03-26 05:01:32
美媒:以總理提議,特朗普拒絕

美媒:以總理提議,特朗普拒絕

環球時報國際
2026-03-27 00:13:22
2026-03-27 01:31:00
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

美團發布外賣大戰后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

本地
房產
家居
數碼
公開課

本地新聞

救命,這只醬板鴨已經在我手機復仇了一萬遍

房產要聞

突發,三亞又有大批征遷補償方案出爐!

家居要聞

傍海而居 靜觀蝴蝶海

數碼要聞

英特爾發Q1.26版Arc Pro專業顯卡驅動,支持B70 / B65顯卡

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版