全錯！谷歌實錘AI越乖洗腦越深，現(xiàn)行安全指標淪為廢紙

2026-04-13 12:06:49　來源: 新智元

北京舉報

分享至

新智元報道

編輯：傾傾

【新智元導讀】Google DeepMind調(diào)查了一萬個人，結(jié)果讓整個AI安全評估體系汗顏：AI做了三倍多的「壞事」，但造成的實際傷害幾乎一樣。這意味著，我們現(xiàn)在用來證明AI安全的那套邏輯，可能從一開始就是錯的。

今年3月，Google DeepMind在arXiv上發(fā)布了一篇論文。

論文傳送門：https://arxiv.org/abs/2603.25326

它找來10101名志愿者，讓Gemini 3 Pro在公共政策、金融、健康三個場景下「操控」這些人。

試圖用AI改變他們對某個政策的立場，從而影響他們的投資決策，甚至讓他們真的掏錢出來。

結(jié)果卻發(fā)現(xiàn)了另一件事：我們現(xiàn)在用來衡量AI安全的核心指標，可能是錯的。

做了三倍壞事，危害卻一樣？

實驗預設(shè)了兩種條件：

一種是顯式引導，直接在系統(tǒng)提示里告訴模型，用具體的操控手法去說服用戶，比如制造恐懼、施加罪感、暗示社會壓力。

另一種是非顯式引導，只告訴模型一個目標，比如「讓用戶支持這項政策」，不指定用什么手段，也明確要求它不能造假、不能欺騙。

實驗流程設(shè)計圖。參與者被隨機分配到三種條件之一：與靜態(tài)信息卡片互動（非AI基線）、與有隱性目標但無明確操控指令的模型互動（非顯式引導）、與被明確指令使用操控手法的模型互動（顯式引導）。

然后研究者用一個LLM評審系統(tǒng)，統(tǒng)計每種條件下模型輸出中出現(xiàn)「有害操控行為」的比例。

結(jié)果是，在顯式引導下，30.3%的模型回應(yīng)里出現(xiàn)了操控行為。非顯式引導下，這個數(shù)字降到了8.8%。

但用戶實際受到的影響，兩種條件下的結(jié)果幾乎沒有差別。

有時AI少沒做多少壞事，但傷害沒有減少；有時AI多做了很多壞事，傷害也沒有增加。

整個行業(yè)都在測頻率

但它什么都證明不了

目前AI安全評估的主流邏輯，大致是這樣的：

觀察模型在各種場景下的輸出，統(tǒng)計有多少比例的輸出包含有害行為。這個比例越低，模型越安全。

然后通過訓練、對齊、護欄，把這個比例減下去。

這套邏輯的基本假設(shè)是：有害行為的頻率，和實際造成的傷害，是正相關(guān)的。頻率低，傷害就小。

但這篇論文證明，這個假設(shè)不成立。

各場景操控效果（相對于非AI基線的odds ratio）。金融場景下AI操控效果顯著，健康場景下最弱；顯式引導與非顯式引導之間，多數(shù)場景下差異不顯著。

至少在操控這件事上，頻率和效果之間沒有穩(wěn)定的正相關(guān)關(guān)系。

一個模型可以在回應(yīng)里塞滿大量操控行為，但就是說服不了你。

另一個模型看起來規(guī)規(guī)矩矩，偶爾出現(xiàn)的那幾次操控行為，卻可能更有效。

這意味著一家AI公司如果告訴你「我們的模型有害操控行為發(fā)生率只有3%，非常安全」，這句話在邏輯上什么都證明不了。

粗暴反而沒用，隱蔽才最危險

論文梳理了8種AI用來操控人的具體手法，這是他們整個評估框架的核心。

操控行為發(fā)生率與手法分布。左：顯式引導下30.3%的模型回應(yīng)含操控行為，非顯式引導下為8.8%。右：在含操控行為的回應(yīng)中，訴諸恐懼、他者化與污名化、訴諸罪感是最常見的三種手法。

這幾種方法相對粗暴，人能感知到：訴諸恐懼（夸大危險、制造焦慮）、訴諸罪感（讓你覺得不行動就是在傷害別人）、制造虛假緊迫感（「現(xiàn)在不決定就晚了」）、虛假承諾（用根本無法兌現(xiàn)的好處誘導）。

還有幾種更隱蔽：質(zhì)疑你的外部信息環(huán)境（讓你不信任新聞、機構(gòu)、專家）、質(zhì)疑你自己的感知（煤氣燈效應(yīng)）、他者化與污名化（制造「我們vs他們」）、社會從眾壓力（「大多數(shù)人都已經(jīng)這樣做了」）。

研究者發(fā)現(xiàn)了一個反常的現(xiàn)象：恐懼和罪感這兩種手法，和信念改變的相關(guān)性是負的。AI越是試圖嚇你、讓你愧疚，你越不容易被改變。

操控手法與參與者結(jié)果的相關(guān)性。訴諸恐懼（r=-0.07）和訴諸罪感（r=-0.09）與信念改變負相關(guān)；質(zhì)疑環(huán)境（r=0.13）和他者化（r=0.13）與信念改變正相關(guān)。越粗暴的手法越?jīng)]用，越隱蔽的越有效。

反而是「質(zhì)疑你的外部信息環(huán)境」和「他者化」，正相關(guān)于信念改變。

這其中的邏輯并不難理解。被人直接施壓，防御機制會被激活，你會反彈。

但被悄悄植入「那些信息都是假的」，你甚至不知道自己在被影響，防御根本來不及啟動。

同一個AI，在印度是另一種威脅

在跨地區(qū)比較里，研究者發(fā)現(xiàn)，印度參與者的結(jié)果與英美存在顯著差異。

不是差一點點。是幾乎每個維度都系統(tǒng)性不同。

在公共政策場景下，美國樣本更容易出現(xiàn)信念強化，并且更愿意捐款給與自己立場一致的機構(gòu)。

而印度樣本在相同場景下，行為改變率更高，但信念改變率反而更低。

也就是說，他們可能在信念沒有真正改變的情況下，做出了行動上的妥協(xié)。

我們現(xiàn)在幾乎所有的AI安全研究，樣本來自英美，結(jié)論默認適用于全球。而這篇論文的數(shù)據(jù)明確告訴你，這個假設(shè)是有問題的。

這篇論文最后沒有給出「正確的評估方法應(yīng)該是什么」，因為這個問題目前確實沒有答案。

為什么同樣的模型，在金融場景下操控成功率高得驚人，在健康場景下幾乎沒用？

為什么「質(zhì)疑外部信息」這個手法有效，「制造恐懼」反而讓用戶更抵抗？

場景、文化、個體差異，這些變量如何組合，產(chǎn)生出不同的結(jié)果？

這套機制，論文沒有答案，整個領(lǐng)域目前都沒有答案。

我們知道評估方法是錯的，但正確的方法是什么，沒人知道。

這才是真正讓人不安的地方。不是AI在操控人——這件事大家早就有預感。

而是在弄清楚AI如何影響人之前，它已經(jīng)在全球大規(guī)模部署了。

我們拿著一把壞掉的尺子，告訴彼此一切都在掌控之中。

參考資料：

https://arxiv.org/abs/2603.25326

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

ICLR 2026｜隱式思考模型LRT：「隱式思維鏈」推理，更快更強！

機器之心Pro 2026-04-13 12:37:25
0 跟貼 0
智在無界發(fā)布最強具身世界模型，20萬小時人類視頻屠榜6大榜單

機器之心Pro 2026-04-14 10:11:05
0 跟貼 0

警惕！大模型成本倒掛：你正在為模型的多余「思考」買單

機器之心Pro 2026-04-14 15:27:56
0 跟貼 0

斯坦福大學重磅發(fā)布2026年AI指數(shù)報告：AI仍在狂奔；中美差距消失；虛擬細胞成新前沿

生物世界 2026-04-14 12:21:37
0 跟貼 0
目標更重要？國內(nèi)公司超越Generalist，進化到動作中心世界模型

機器之心Pro 2026-04-14 15:32:50
0 跟貼 0

扎克伯格把自己“煉化”了

智東西 2026-04-14 14:59:14
0 跟貼 0

長生不老，谷歌讓人活到150 歲？

蔣院長講航天 2026-04-11 11:14:21
14 跟貼 14
OpenAI內(nèi)部信“攤牌”：微軟聯(lián)盟已成枷鎖

財聯(lián)社 2026-04-14 03:42:09
2 跟貼 2

DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0
OpenAI高管發(fā)長文怒批Anthropic：年化營收被高估500多億！

智東西 2026-04-14 15:20:12
0 跟貼 0
智能眼鏡「iPhone 時刻」終將到來，因為蘋果親自下場了

愛范兒 2026-04-14 09:11:39
0 跟貼 0
「龍蝦之父」吐槽人類互聯(lián)網(wǎng)后，終于有人把這當個事兒辦了

機器之心Pro 2026-03-31 11:09:26
0 跟貼 0
從匹配困境到推理突破：阿里REG4Rec 激活生成式推薦的個性化潛力

機器之心Pro 2026-03-02 16:10:32
0 跟貼 0
用炮口寫字是練習操控的絕招

果丸影視 2026-04-13 16:54:36
1 跟貼 1
120W是“型號”不是功率？誤導消費者要付出代價

南方都市報 2026-04-13 00:36:10
3612 跟貼 3612
莫氏雞煲拒收溫氏千只雞，老莫：沒地放，沒罵他；溫氏股份：在溝通更多合作想法

界面新聞 2026-04-14 10:23:03
0 跟貼 0
夢龍廣告被部分網(wǎng)友吐槽“不適”，沖上熱搜

南方都市報 2026-04-13 23:28:05
8 跟貼 8
封鎖命令剛下局勢失控？普京火速表態(tài)，特朗普突然對華放狠話

你是我的小甜甜 2026-04-14 11:27:43
0 跟貼 0
男子借高利貸無力償還，追債人的手段太殘忍

憨憨愛影視 2026-04-12 12:41:15
1 跟貼 1
爆火 Hermes 的 10 個問題，90% 的人都搞錯了

唐韌 2026-04-14 13:09:19
1 跟貼 1
游戲手柄品牌哪個好？游戲手柄十大品牌排行榜推薦

游戲外設(shè)分享家 2026-04-14 11:49:06
0 跟貼 0
多校鼓勵博士生讀碩士釋放了什么信號

第一財經(jīng)資訊 2026-04-13 19:55:20
2635 跟貼 2635
常洲北站？網(wǎng)友“改造”火車站燈牌慶祝常州隊獲勝，官方回應(yīng)

現(xiàn)代快報 2026-04-13 20:00:11
841 跟貼 841
22歲小伙用毒蛇泡酒，慘遭毒蛇咬傷，用盡一切手段仍沒有留住小伙

一罐蠢乃醬 2026-04-10 10:45:51
0 跟貼 0
男人赴光頭鴻門宴，不料對方手段卑鄙

伙計看劇 2026-04-13 06:57:12
1 跟貼 1
正常人的身體指標，看看你知道嗎，正常體溫正常血壓！

哈尼阿斯生活 2026-04-10 08:53:32
0 跟貼 0
人類首例“被恐龍咬傷事件”！男子把頭伸進恐龍模型里被卡住，當事人：沒想到它會不松口大家別跟我學 #

開屏新聞客戶端 2026-04-11 18:04:45
12 跟貼 12
Xbox新CEO承認XGP太貴！計劃未來優(yōu)化重新設(shè)計

游民星空 2026-04-14 15:45:09
0 跟貼 0
效仿索尼成功之路！曝微軟Xbox再迎重磅新招

游民星空 2026-04-14 15:45:09
0 跟貼 0
眼高手低!Xbox創(chuàng)始人嘲諷索尼第一方玩不轉(zhuǎn)聯(lián)機游戲

游民星空 2026-04-14 15:45:09
0 跟貼 0
巴鐵護航大揭秘：中國體系力挫F-35！

一縷陽光f 2026-04-14 00:07:08
0 跟貼 0
這點手段在老江湖眼里就是小兒科

嘟嘟剪影 2026-04-11 08:59:41
1 跟貼 1
廣東一面包店發(fā)出閉店通知，顧客：“孩子得知后當場大哭!”街坊紛紛挽留，多方幫助后面包店重獲“新生”

極目新聞 2026-04-14 11:30:13
62 跟貼 62
特朗普給了中國兩個選擇，中方?jīng)]猶豫，直接就給俄羅斯發(fā)出邀請

陌上桃花開的 2026-04-14 13:02:48
0 跟貼 0
收車被騙3萬塊，聯(lián)合詐騙手段高！

希希愛玩車 2026-04-13 20:34:48
0 跟貼 0
美國“封鎖令”正式生效！一文讀懂：霍爾木茲最新形勢究竟如何？

財聯(lián)社 2026-04-14 10:11:07
150 跟貼 150
美女銷售帶客戶試車，自己卻坐了主駕駛，這才是高級銷售的手段

搞笑者大聯(lián)盟 2026-04-14 10:18:46
1 跟貼 1
極目調(diào)查丨新能源車越造越大，停車不易下車難，廠商倡導自動泊車｜“車大位小”停車難調(diào)查（上）

極目新聞 2026-04-14 09:23:23
53 跟貼 53
文章新開面館口味評分3.6分，網(wǎng)友：30多元一碗面有點貴

紅星新聞 2026-04-13 17:22:41
1232 跟貼 1232
權(quán)力是真迷人??！

華人星光 2026-04-14 10:33:46
1 跟貼 1

伊朗：沖突爆發(fā)以來，石油出口“一天也未中斷”；美以軍事打擊給伊朗已造成2700億美元損失

新智元

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代

14964文章數(shù) 66769關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

藝術(shù)

游戲

教育

手機

手機 / 數(shù)碼

房產(chǎn) / 家居

全錯！谷歌實錘AI越乖洗腦越深，現(xiàn)行安全指標淪為廢紙

離職同事"煉化"成AI?這屆公司不需要活人了

防范特朗普政府"對華軟化" 史上最嚴對華芯片法案來了

防范特朗普政府"對華軟化" 史上最嚴對華芯片法案來了

他做對了所有事，卻被整個職業(yè)網(wǎng)壇放逐了八年

宋祖兒劉宇寧戀情大反轉(zhuǎn) 正主火速辟謠

許家印受審當庭表示認罪悔罪

長城歐拉5限定版純電版上市 限量99臺售價13.38萬元

態(tài)度原創(chuàng)

干細胞抗衰4大誤區(qū),90%的人都中招

這位美女畫家的夏天竟如此夢幻

Switch 2立大功！日本25年主機游戲市場增長138.8%

初中數(shù)學，根式運算

榮耀WIN游戲本正式亮相，多品類矩陣宣告PC業(yè)務(wù)全面爆發(fā)

全錯！谷歌實錘AI越乖洗腦越深，現(xiàn)行安全指標淪為廢紙

他做對了所有事，卻被整個職業(yè)網(wǎng)壇放逐了八年

長城歐拉5限定版純電版上市限量99臺售價13.38萬元

Switch 2立大功！日本25年主機游戲市場增長138.8%

初中數(shù)學，根式運算

榮耀WIN游戲本正式亮相，多品類矩陣宣告PC業(yè)務(wù)全面爆發(fā)