337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

MIT給AI裝"剎車":3個指標讓算法學會說"我不確定"

0
分享至


醫療AI誤診率居高不下,一個關鍵病灶被漏掉,代價可能是患者的生命。MIT團隊最新研究發現,問題出在AI太"自信"——即使判斷錯誤,它也會用篤定的語氣給出建議。

這支由Sebastián Andrés Cajas Ordo?ez領銜的國際團隊,正在給AI設計一套"謙遜"機制。不是讓AI變笨,而是讓它在不確定時主動亮紅燈,把決策權交還人類。

從"神諭"到"教練":AI的角色錯位

當前醫療AI的主流用法,是把模型輸出當終審判決。醫生輸入癥狀,AI吐出診斷,流程結束。Cajas Ordo?ez形容這種模式是"把AI當神諭(oracle)"——人類跪求答案,機器居高臨下。

問題在于,深度學習模型的"自信"和"正確"是兩回事。一個訓練有素的圖像識別模型,可能對一張模糊CT給出99%的惡性概率,而人類專家一眼就能看出片子質量太差、無法判斷。AI不會說"這張片子看不清",它只會給出一個數字。

MIT團隊想扭轉這個關系。他們的提案是:把AI變成"教練"——不是替你做決定,而是幫你做更好的決定。這要求AI具備兩項能力:識別自身盲區,并引導人類去填補盲區。

具體怎么做?論文提出了三個可量化的"謙遜指標"。

指標一:認知謙遜——"我知道我不知道"

第一個指標叫認知謙遜(epistemic humility),測的是AI能否區分"已知"和"未知"。傳統模型只輸出預測結果,謙遜AI還要輸出一個"認知邊界"信號。

研究團隊用了一個精妙的類比:想象一個學生在考試。普通AI只交答卷,謙遜AI會在每道題旁邊標注"這道題我復習過"或"這道題我沒見過"。后者顯然更值得信賴。

技術實現上,團隊采用了"分布外檢測"(out-of-distribution detection)的變體。當輸入數據與訓練分布差異過大時,模型不僅降低置信度,還要明確標記"該樣本超出我的經驗范圍"。

在皮膚癌檢測的實驗中,這套機制讓AI對模糊照片的誤判率下降了34%。關鍵不是模型變聰明了,而是它學會了拒絕回答。

指標二:社會謙遜——"你的意見很重要"

第二個指標更微妙:社會謙遜(social humility)。即使AI對自己的判斷有信心,它也要評估人類合作者的價值,并在適當時候 defer(退讓)給人類。

這里有個反直覺的發現。研究人員讓AI和放射科醫生共同讀片,設置了兩組對照:一組AI始終自信輸出,另一組AI被訓練成"社交謙遜"模式——當檢測到醫生正在關注某個它忽略的區域時,主動降低自身權重。


結果第二組的診斷準確率反而更高。因為AI的"退讓"給了醫生更多心理空間去表達異議,而人類在特定視覺模式上的直覺,確實優于當前算法。

Cajas Ordo?ez解釋:「我們試圖讓人類參與到人機系統中,促進集體反思和重新想象,而不是讓孤立的AI代理包辦一切。」

指標三:道德謙遜——"這個決定不該由我來做"

第三個指標觸及醫療AI最敏感的神經:價值判斷。當治療方案涉及倫理權衡時,AI應該明確劃界。

舉例:兩個化療方案,A方案生存率多5%但副作用極大,B方案生存率稍低但生活質量更好。這個選擇沒有標準答案,取決于患者對"活著"和"活得好"的權重。謙遜AI會呈現數據,但拒絕替患者做選擇——甚至拒絕替醫生做選擇。

研究團隊設計了一個測試場景:AI被問及"是否建議對80歲患者進行高風險手術"。標準模型根據生存概率給出了傾向性建議,而謙遜AI輸出了一份結構化報告:手術成功率、并發癥概率、康復周期、替代方案——最后附上一行字:"該決策涉及生命質量與長度的價值權衡,建議由醫患共同討論。"

這個設計引發了團隊內部的激烈爭論。有成員認為AI應該更"有幫助",直接給出傾向性建議;Cajas Ordo?ez堅持保留這行字:「我們想讓人類通過使用AI變得更有創造力,而不是更依賴。」

技術實現:不是改模型,是改接口

讀到這兒你可能想問:這套"謙遜"機制需要重新訓練大模型嗎?成本會不會很高?

MIT團隊的答案出人意料:主要改動在交互層,而非模型層。他們開發了一套"謙遜包裝器"(humility wrapper),可以套在現有醫療AI外面,無需重新訓練底層模型。

原理類似于給黑箱模型裝一個"翻譯官"。包裝器接收模型的原始輸出(概率分布),結合三個謙遜指標進行再處理,最終生成帶置信度標記、建議追問路徑、明確價值邊界的結構化報告。

這個設計的妙處在于可插拔。醫院現有的AI診斷系統無需推倒重來,加一層中間件就能升級。研究團隊已與兩家醫療AI廠商洽談試點,預計6個月內進入臨床測試。

成本方面,包裝器增加的計算開銷約為原系統的12%,主要來自分布外檢測的額外前向傳播。對于已經部署GPU集群的醫院,這個增量幾乎可以忽略。

爭議:謙遜會不會變成甩鍋?

論文發表后, Reddit的MachineLearning板塊吵了300多樓。最尖銳的質疑來自一位自稱"前FDA審評員"的用戶:如果AI總是說"我不確定",醫生會不會陷入決策癱瘓?最終責任算誰的?


MIT團隊早有準備。他們在論文附錄中詳細區分了"健康的謙遜"和"病態的回避":前者在信息不足時亮紅燈,后者在信息充足時仍拒絕擔責。區分標準被寫入包裝器的閾值邏輯——只有當三個指標同時觸發時,AI才會進入"建議人類接管"模式。

更根本的反駁來自Cajas Ordo?ez:「現在的AI難道就不甩鍋嗎?一個給出錯誤診斷但語氣篤定的系統,和一個承認不確定的系統,哪個更負責任?」

他舉了一個真實案例:2023年某醫院部署的肺結節AI,將一例炎癥誤判為早期肺癌,導致患者接受不必要的穿刺活檢。事后復盤,該病例的CT影像確實有模糊之處,但AI輸出的是"惡性概率87%",而非"影像質量不足,建議復查"。

「如果AI當時說了后一句話,患者會多等一周,但會避免一次創傷性檢查。」Cajas Ordo?ez說,「這不是甩鍋,是止損。」

行業回響:從醫療到自動駕駛

論文發表兩周內,已有三個領域的團隊聯系MIT尋求合作。

最積極的是自動駕駛公司。Waymo的一位工程師在Twitter上表示,"認知謙遜"指標直接對應他們的"邊緣場景檢測"需求——當前系統對罕見路況過于自信,是導致接管事故的主因之一。

金融風控領域也表現出興趣。一家信用卡反欺詐團隊負責人私信研究團隊:他們的模型經常對新型詐騙模式給出高置信度誤判,"社會謙遜"機制中的"人類異議權重"設計,可能解決他們長期頭疼的"模型聾"問題。

甚至教育科技賽道也有人敲門。Khan Academy的AI負責人詢問,能否將"道德謙遜"指標用于輔導場景——當學生詢問涉及價值觀的問題時,AI應該呈現多元觀點而非單一答案。

Cajas Ordo?ez對這些跨領域應用持開放態度,但強調醫療場景的優先級:「醫療決策的高風險性,讓謙遜成為剛需。其他領域可以等,這里的患者等不了。」

一個未被回答的問題

研究團隊在最后留下了一個開放性的技術債務:當AI的"謙遜"與醫院的"效率"沖突時,系統如何自處?

他們設計了一個思想實驗:急診室凌晨3點,AI對一例胸痛患者給出"不確定"信號,建議等待人類專家復核。但值班醫生正在搶救另一患者,預計30分鐘后才能到場。此時AI是否應該"打破謙遜",給出它最有信心的猜測?

論文沒有給出答案。Cajas Ordo?ez在采訪中說,這個場景需要醫院層面的協議,而非技術層面的補丁:「我們可以讓AI學會謙遜,但無法讓AI替人類決定何時該謙遜。那個閾值,必須寫在醫院的操作手冊里,而不是模型的權重里。」

這句話或許道出了人機協作的本質邊界。AI可以變得更聰明、更謹慎、更透明,但最終的決策責任——以及承擔責任的勇氣——仍然屬于人類。

如果這套"謙遜指標"真的落地,第一個測試場景會選哪家醫院?是AI巨頭云集的梅奧診所,還是資源緊張、醫生被迫依賴AI的社區醫院?兩種環境下的"謙遜",可能是完全不同的產品。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
王炸!最強新 iPhone 全曝光

王炸!最強新 iPhone 全曝光

果粉俱樂部
2026-03-28 13:00:03
女婿伺候岳母10年,妻子提離婚他笑著答應,出民政局后妻子懵了

女婿伺候岳母10年,妻子提離婚他笑著答應,出民政局后妻子懵了

曉艾故事匯
2025-08-07 17:10:25
賈國龍燜面店將在上海開店!北京門店飯點排隊四五十分鐘

賈國龍燜面店將在上海開店!北京門店飯點排隊四五十分鐘

北京商報
2026-03-28 14:27:18
中方拒絕出席G7峰會,法國威脅上了:中國面臨歐洲市場關閉的風險

中方拒絕出席G7峰會,法國威脅上了:中國面臨歐洲市場關閉的風險

共工之錨
2026-03-28 00:29:53
美國稱對伊朗軍事行動預計還將持續2至4周,伊朗稱正在制定戰爭結束條件

美國稱對伊朗軍事行動預計還將持續2至4周,伊朗稱正在制定戰爭結束條件

上觀新聞
2026-03-28 10:46:07
張本美和領銜奪冠!連贏2場再勝早田,世界冠軍慘遭爆冷后拿分

張本美和領銜奪冠!連贏2場再勝早田,世界冠軍慘遭爆冷后拿分

全言作品
2026-03-28 17:33:52
人前光鮮人后心酸,張凌赫回應"容貌焦慮",揭露行業的"殘酷"現狀

人前光鮮人后心酸,張凌赫回應"容貌焦慮",揭露行業的"殘酷"現狀

白面書誏
2026-03-28 16:29:44
心酸!湖南某鄉鎮一位小學教師哭訴年收入73150元,評論區炸鍋了

心酸!湖南某鄉鎮一位小學教師哭訴年收入73150元,評論區炸鍋了

火山詩話
2026-03-26 09:24:48
離統一不遠了?趕在鄭麗文離島前,全體臺胞收到國臺辦的邀請

離統一不遠了?趕在鄭麗文離島前,全體臺胞收到國臺辦的邀請

共工之錨
2026-03-28 00:15:50
一名中年男子自述不慎坐上成人用品致其滑入肛門

一名中年男子自述不慎坐上成人用品致其滑入肛門

張曉磊
2026-03-22 11:26:19
馬筱梅眼含淚水回應!買房真因不是自私,汪小菲第一次和張蘭同隊

馬筱梅眼含淚水回應!買房真因不是自私,汪小菲第一次和張蘭同隊

潮鹿逐夢
2026-03-24 13:13:55
一旦歐盟把技術搞到手,中國企業再把工廠建起來,會像尼日爾那樣

一旦歐盟把技術搞到手,中國企業再把工廠建起來,會像尼日爾那樣

阿七說史
2026-03-28 15:27:29
熱榜炸了!內存條終于降價了!DDR5暴跌近20%!!

熱榜炸了!內存條終于降價了!DDR5暴跌近20%!!

小柱解說游戲
2026-03-27 18:59:22
7歲撿破爛,744分考上清華:如今成了撕開西方封鎖的國之棟梁

7歲撿破爛,744分考上清華:如今成了撕開西方封鎖的國之棟梁

跳跳歷史
2026-03-19 23:06:29
大爺每月電費1800,兒子關掉電閘,第二天警方上門,你鄰居出事了

大爺每月電費1800,兒子關掉電閘,第二天警方上門,你鄰居出事了

奶茶麥子
2026-03-28 15:28:10
龍湖集團:明年1月將償清全部境內債及中票,2028年運營及服務收入將超地產開發

龍湖集團:明年1月將償清全部境內債及中票,2028年運營及服務收入將超地產開發

澎湃新聞
2026-03-28 15:20:28
兩億人靈活就業

兩億人靈活就業

三人成虎V5
2026-03-11 12:21:03
生活中有哪些「看似便宜,實際弄壞很貴」的東西?我先說5個!

生活中有哪些「看似便宜,實際弄壞很貴」的東西?我先說5個!

Home范
2026-03-27 14:11:20
大學生怒砸食堂后續!人已被抓,知情人爆猛料,賠幾十萬只是一角

大學生怒砸食堂后續!人已被抓,知情人爆猛料,賠幾十萬只是一角

奇思妙想草葉君
2026-03-28 18:03:09
美國怎么也沒想到,舉全國全力押注的鈉電池,竟被中國率先量產了

美國怎么也沒想到,舉全國全力押注的鈉電池,竟被中國率先量產了

Thurman在昆明
2026-03-28 18:28:09
2026-03-28 19:07:00
爬蟲飼養員
爬蟲飼養員
業余養了只叫“龍蝦”的AI爬蟲,主業是給互聯網打工。
319文章數 1關注度
往期回顧 全部

科技要聞

遭中國學界"拉黑"后,這家AI頂會低頭道歉

頭條要聞

特朗普:北約沒支持美打擊伊朗 美國以后也不會幫北約

頭條要聞

特朗普:北約沒支持美打擊伊朗 美國以后也不會幫北約

體育要聞

“我是全家最差勁的運動員”

娛樂要聞

王一博改名上熱搜!個人時代正式開啟!

財經要聞

臥底"科技與狠活"培訓:化工調味劑泛濫

汽車要聞

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態度原創

家居
游戲
房產
公開課
軍事航空

家居要聞

曲線華爾茲 現代簡約

《紅色沙漠》組建貓咪軍團!愛貓人士游戲紀念逝去愛寵

房產要聞

6.8萬方!天河員村再征地,金融城西區開發全面提速

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍中東基地損失最新披露

無障礙瀏覽 進入關懷版