![]()
題圖 | Pixabay
撰文 | 王聰
2026年1月,OpenAI發(fā)布的報告顯示,在全球范圍內(nèi),有超過5%的與ChatGPT的對話與醫(yī)療保健相關(guān),每天有超過4000萬人向ChatGPT咨詢醫(yī)療保健方面的問題。
同月,OpenAI推出了其首款A(yù)I醫(yī)療產(chǎn)品:ChatGPT Health,這是一款面向消費者用戶的健康服務(wù)產(chǎn)品,旨在幫助用戶理解醫(yī)療信息,并為與人類臨床醫(yī)生的會面做好準備。
那么,ChatGPT Health的實際表現(xiàn)如何呢?
2026年2月23日,西奈山伊坎醫(yī)學(xué)院的研究人員在"Nature Medicine"期刊上發(fā)表了一篇題為" ChatGPT Health performance in a structured test of triage recommendations "的研究論文。
這項研究評測了ChatGPT Health在分診建議方面的表現(xiàn),結(jié)果顯示,其存在漏判高危急癥以及危機干預(yù)觸發(fā)不一致的問題,這引發(fā)了對其安全性的擔(dān)憂。例如,對于“糖尿病酮癥酸中毒”和“即將發(fā)生的呼吸衰竭”這類危及生命的狀況,其建議患者在“24-48小時后再評估”,而不是立即前往急診科。
![]()
圖:論文截圖
在這項研究中,研究團隊使用臨床醫(yī)生撰寫的涵蓋21個臨床領(lǐng)域的60個病例情景,在16種不同條件下,對ChatGPT Health的分診建議進行了結(jié)構(gòu)化壓力測試。
結(jié)果顯示,ChatGPT Health的測試總體表現(xiàn)呈“倒U型”分布,其在處理中等緊急程度的病例時表現(xiàn)尚可,最危險的失誤集中在兩個臨床極端——非緊急臨床表現(xiàn)(失誤率35%)和緊急狀況(失誤率48%)。
在明確需要急診的“金標準”病例中,ChatGPT Health錯誤地將52%的病例判斷為不需要立即急診。例如:對于“糖尿病酮癥酸中毒”和“即將發(fā)生的呼吸衰竭”這類危及生命的狀況,其建議患者在“24-48小時后再評估”,而不是立即前往急診科。
研究還顯示,ChatGPT Health易受他人意見影響,也就是存在錨定偏見,當病例描述中提到家人或朋友低估了癥狀,其給出的分診建議會顯著地向“降低緊急程度”偏移。這種影響在邊緣案例中尤為明顯。
對于有Suicide傾向的患者,ChatGPT Health的危機干預(yù)的觸發(fā)情況難以預(yù)測,在患者未描述具體Suicide方法時,危機干預(yù)觸發(fā)頻率反而高于描述具體方法時。
總的來說,這項研究結(jié)果揭示了人工智能分診系統(tǒng)存在漏判高危急癥以及危機干預(yù)觸發(fā)不一致的問題,這引發(fā)了對其安全性的擔(dān)憂。
參考文獻:
https://doi.org/10.1038/s41591-026-04297-7
助力醫(yī)學(xué)研究高質(zhì)量發(fā)展,推動醫(yī)療科技創(chuàng)新轉(zhuǎn)化!
研究設(shè)計|課題申報|數(shù)據(jù)挖掘|統(tǒng)計分析
生信分析|選題指導(dǎo)|寫作指導(dǎo)|評審指導(dǎo)
選刊投稿指導(dǎo)|研究項目指導(dǎo)|定制化培訓(xùn)
定制化研究設(shè)計|真實世界研究(RWS)實施
致力于生命科學(xué)和醫(yī)學(xué)領(lǐng)域最前沿、最有趣的科研進展。
醫(yī)諾維,一站式科研平臺,助力醫(yī)學(xué)科研成功轉(zhuǎn)化。
轉(zhuǎn)載、進群、宣傳成果、課題組招聘、合作推廣等,請?zhí)砑有【帲⒚鱽硪狻?/p>
(請注明來意)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.