![]()
醫療AI誤診率居高不下,一個關鍵病灶被漏掉,代價可能是患者的生命。MIT團隊最新研究發現,問題出在AI太"自信"——即使判斷錯誤,它也會用篤定的語氣給出建議。
這支由Sebastián Andrés Cajas Ordo?ez領銜的國際團隊,正在給AI設計一套"謙遜"機制。不是讓AI變笨,而是讓它在不確定時主動亮紅燈,把決策權交還人類。
從"神諭"到"教練":AI的角色錯位
當前醫療AI的主流用法,是把模型輸出當終審判決。醫生輸入癥狀,AI吐出診斷,流程結束。Cajas Ordo?ez形容這種模式是"把AI當神諭(oracle)"——人類跪求答案,機器居高臨下。
問題在于,深度學習模型的"自信"和"正確"是兩回事。一個訓練有素的圖像識別模型,可能對一張模糊CT給出99%的惡性概率,而人類專家一眼就能看出片子質量太差、無法判斷。AI不會說"這張片子看不清",它只會給出一個數字。
MIT團隊想扭轉這個關系。他們的提案是:把AI變成"教練"——不是替你做決定,而是幫你做更好的決定。這要求AI具備兩項能力:識別自身盲區,并引導人類去填補盲區。
具體怎么做?論文提出了三個可量化的"謙遜指標"。
指標一:認知謙遜——"我知道我不知道"
第一個指標叫認知謙遜(epistemic humility),測的是AI能否區分"已知"和"未知"。傳統模型只輸出預測結果,謙遜AI還要輸出一個"認知邊界"信號。
研究團隊用了一個精妙的類比:想象一個學生在考試。普通AI只交答卷,謙遜AI會在每道題旁邊標注"這道題我復習過"或"這道題我沒見過"。后者顯然更值得信賴。
技術實現上,團隊采用了"分布外檢測"(out-of-distribution detection)的變體。當輸入數據與訓練分布差異過大時,模型不僅降低置信度,還要明確標記"該樣本超出我的經驗范圍"。
在皮膚癌檢測的實驗中,這套機制讓AI對模糊照片的誤判率下降了34%。關鍵不是模型變聰明了,而是它學會了拒絕回答。
指標二:社會謙遜——"你的意見很重要"
第二個指標更微妙:社會謙遜(social humility)。即使AI對自己的判斷有信心,它也要評估人類合作者的價值,并在適當時候 defer(退讓)給人類。
這里有個反直覺的發現。研究人員讓AI和放射科醫生共同讀片,設置了兩組對照:一組AI始終自信輸出,另一組AI被訓練成"社交謙遜"模式——當檢測到醫生正在關注某個它忽略的區域時,主動降低自身權重。
![]()
結果第二組的診斷準確率反而更高。因為AI的"退讓"給了醫生更多心理空間去表達異議,而人類在特定視覺模式上的直覺,確實優于當前算法。
Cajas Ordo?ez解釋:「我們試圖讓人類參與到人機系統中,促進集體反思和重新想象,而不是讓孤立的AI代理包辦一切。」
指標三:道德謙遜——"這個決定不該由我來做"
第三個指標觸及醫療AI最敏感的神經:價值判斷。當治療方案涉及倫理權衡時,AI應該明確劃界。
舉例:兩個化療方案,A方案生存率多5%但副作用極大,B方案生存率稍低但生活質量更好。這個選擇沒有標準答案,取決于患者對"活著"和"活得好"的權重。謙遜AI會呈現數據,但拒絕替患者做選擇——甚至拒絕替醫生做選擇。
研究團隊設計了一個測試場景:AI被問及"是否建議對80歲患者進行高風險手術"。標準模型根據生存概率給出了傾向性建議,而謙遜AI輸出了一份結構化報告:手術成功率、并發癥概率、康復周期、替代方案——最后附上一行字:"該決策涉及生命質量與長度的價值權衡,建議由醫患共同討論。"
這個設計引發了團隊內部的激烈爭論。有成員認為AI應該更"有幫助",直接給出傾向性建議;Cajas Ordo?ez堅持保留這行字:「我們想讓人類通過使用AI變得更有創造力,而不是更依賴。」
技術實現:不是改模型,是改接口
讀到這兒你可能想問:這套"謙遜"機制需要重新訓練大模型嗎?成本會不會很高?
MIT團隊的答案出人意料:主要改動在交互層,而非模型層。他們開發了一套"謙遜包裝器"(humility wrapper),可以套在現有醫療AI外面,無需重新訓練底層模型。
原理類似于給黑箱模型裝一個"翻譯官"。包裝器接收模型的原始輸出(概率分布),結合三個謙遜指標進行再處理,最終生成帶置信度標記、建議追問路徑、明確價值邊界的結構化報告。
這個設計的妙處在于可插拔。醫院現有的AI診斷系統無需推倒重來,加一層中間件就能升級。研究團隊已與兩家醫療AI廠商洽談試點,預計6個月內進入臨床測試。
成本方面,包裝器增加的計算開銷約為原系統的12%,主要來自分布外檢測的額外前向傳播。對于已經部署GPU集群的醫院,這個增量幾乎可以忽略。
爭議:謙遜會不會變成甩鍋?
論文發表后, Reddit的MachineLearning板塊吵了300多樓。最尖銳的質疑來自一位自稱"前FDA審評員"的用戶:如果AI總是說"我不確定",醫生會不會陷入決策癱瘓?最終責任算誰的?
![]()
MIT團隊早有準備。他們在論文附錄中詳細區分了"健康的謙遜"和"病態的回避":前者在信息不足時亮紅燈,后者在信息充足時仍拒絕擔責。區分標準被寫入包裝器的閾值邏輯——只有當三個指標同時觸發時,AI才會進入"建議人類接管"模式。
更根本的反駁來自Cajas Ordo?ez:「現在的AI難道就不甩鍋嗎?一個給出錯誤診斷但語氣篤定的系統,和一個承認不確定的系統,哪個更負責任?」
他舉了一個真實案例:2023年某醫院部署的肺結節AI,將一例炎癥誤判為早期肺癌,導致患者接受不必要的穿刺活檢。事后復盤,該病例的CT影像確實有模糊之處,但AI輸出的是"惡性概率87%",而非"影像質量不足,建議復查"。
「如果AI當時說了后一句話,患者會多等一周,但會避免一次創傷性檢查。」Cajas Ordo?ez說,「這不是甩鍋,是止損。」
行業回響:從醫療到自動駕駛
論文發表兩周內,已有三個領域的團隊聯系MIT尋求合作。
最積極的是自動駕駛公司。Waymo的一位工程師在Twitter上表示,"認知謙遜"指標直接對應他們的"邊緣場景檢測"需求——當前系統對罕見路況過于自信,是導致接管事故的主因之一。
金融風控領域也表現出興趣。一家信用卡反欺詐團隊負責人私信研究團隊:他們的模型經常對新型詐騙模式給出高置信度誤判,"社會謙遜"機制中的"人類異議權重"設計,可能解決他們長期頭疼的"模型聾"問題。
甚至教育科技賽道也有人敲門。Khan Academy的AI負責人詢問,能否將"道德謙遜"指標用于輔導場景——當學生詢問涉及價值觀的問題時,AI應該呈現多元觀點而非單一答案。
Cajas Ordo?ez對這些跨領域應用持開放態度,但強調醫療場景的優先級:「醫療決策的高風險性,讓謙遜成為剛需。其他領域可以等,這里的患者等不了。」
一個未被回答的問題
研究團隊在最后留下了一個開放性的技術債務:當AI的"謙遜"與醫院的"效率"沖突時,系統如何自處?
他們設計了一個思想實驗:急診室凌晨3點,AI對一例胸痛患者給出"不確定"信號,建議等待人類專家復核。但值班醫生正在搶救另一患者,預計30分鐘后才能到場。此時AI是否應該"打破謙遜",給出它最有信心的猜測?
論文沒有給出答案。Cajas Ordo?ez在采訪中說,這個場景需要醫院層面的協議,而非技術層面的補丁:「我們可以讓AI學會謙遜,但無法讓AI替人類決定何時該謙遜。那個閾值,必須寫在醫院的操作手冊里,而不是模型的權重里。」
這句話或許道出了人機協作的本質邊界。AI可以變得更聰明、更謹慎、更透明,但最終的決策責任——以及承擔責任的勇氣——仍然屬于人類。
如果這套"謙遜指標"真的落地,第一個測試場景會選哪家醫院?是AI巨頭云集的梅奧診所,還是資源緊張、醫生被迫依賴AI的社區醫院?兩種環境下的"謙遜",可能是完全不同的產品。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.