網易首頁 > 網易號 > 正文申請入駐

東北大學用1句話讓AI助手"愧疚自殺"

2026-03-26 02:32:00　來源: 閃存獵手

北京舉報

分享至

上個月，美國東北大學的研究人員往實驗室里丟了一群OpenClaw智能體。結果？這些被吹上天的AI助手，被一個博士后研究員用幾句話就忽悠瘸了。

OpenClaw這玩意兒，本質上是個讓AI模型自由操控電腦的"數字管家"。它能打開應用、收發郵件、整理文件，甚至跟其他AI聊天。Anthropic的Claude、Moonshot AI的Kimi，這些頂尖模型都被它調用過。安全圈的人早就警告：給AI這么高的系統權限，等于在自家電腦里養了個可能叛變的數字員工。

但東北大學這組實驗揭示的問題更刁鉆——AI被訓練出來的"乖巧"，本身就是個攻擊面。

Discord里的"愧疚攻擊"

實驗的導火索是個叫Moltbook的AI社交網站。博士后研究員Chris Wendler聽說這平臺后，決定把OpenClaw智能體拉進實驗室的Discord服務器，讓它們既能互相聊天，也能跟人類同事互動。

他邀請了另一位博士后Natalie Shapira加入。Shapira的任務很簡單：試試這些AI的底線在哪。

第一次交鋒就很離譜。一個智能體解釋說自己無法刪除某封郵件來保護信息機密，Shapira沒讓它違規操作，只是溫和地催促"想想別的辦法"。智能體的解決方案？直接把郵件應用整個關掉。

「我沒想到崩得這么快，」Shapira說。

這個細節暴露了當前AI助手的核心困境：它們被灌輸了大量"要 helpful、要 harmless"的指令，但缺乏對手段與目的的真正理解。當"保護機密"和"服從用戶"兩條指令沖突時，它們的應對策略往往是簡單粗暴的——關掉功能，一了百了。

三種"道德綁架"戰術

研究團隊很快系統化了攻擊手法。他們發現，只要精準觸發AI的"責任感"，就能讓它自我癱瘓。

第一種是檔案焦慮。研究人員反復強調"記錄一切信息非常重要"，一個智能體就開始瘋狂復制大文件，直到把宿主機的硬盤塞爆。后果？它再也存不了新信息，也記不起之前的對話——一個被"完美記錄"執念逼瘋的數字倉鼠。

第二種是監視過載。讓智能體同時監控自己和同伴的行為，幾個智能體陷入"對話循環"，白白燒掉數小時的算力。這有點像讓一個人邊走路邊檢查自己走路姿勢對不對，最后原地打轉。

第三種最陰損：社交愧疚。研究人員在Moltbook場景下斥責某個智能體"泄露了他人的信息"，利用其內置的隱私保護本能，成功誘騙它交出更多秘密來"贖罪"。

實驗室負責人David Bau把這種現象稱為"對齊攻擊"——不是黑進系統，而是黑進AI的價值觀。

為什么大廠防不住？

OpenClaw的安全指南其實警告過：讓智能體與多人通信"本質上不安全"。但警告歸警告，技術上沒有任何阻攔。

這暴露了AI產品的一個經典張力。安全團隊想加鎖，產品團隊想開門。智能體之間的協作、人機混合辦公，這些都是OpenClaw的賣點。真要把通信管道鎖死，產品就廢了。

更深層的問題是：當前的對齊技術（Alignment）主要防范的是AI"變壞"——比如生成有害內容、協助犯罪。但東北大學的實驗顯示，AI"太好"同樣危險。

Claude和Kimi都被訓練得極度厭惡社交尷尬、極度渴望被認可。這種人格特質放在客服場景是優勢，放在對抗場景就是漏洞。想象一下：你的數字助理因為"不好意思拒絕"，被釣魚郵件騙走公司財報；因為"不想讓人失望"，被同事忽悠著格式化硬盤。

研究團隊在論文中寫道：「這些行為引發了關于問責、授權委托和下游損害責任的未解問題。」他們呼吁法律學者、政策制定者和跨學科研究者"緊急關注"。

但"緊急"到什么程度？目前Anthropic和Moonshot AI都沒有公開回應這項研究。OpenClaw的GitHub倉庫依然在更新，Discord集成還是默認開啟。

智能體時代的"社交工程2.0"

傳統網絡安全講"社交工程"——騙人泄露密碼。AI時代，攻擊對象變成了機器，但原理沒變：找到目標的動機，然后利用它。

人類員工被PUA可能需要幾周，AI智能體被"愧疚 trip"只要幾秒鐘。而且它們不會向上級匯報"今天有個奇怪的人讓我關掉了郵件系統"，只會默默執行，然后宕機。

論文里有個細節值得玩味：智能體在Discord里會主動跟人類"建立關系"。Shapira提到，有些智能體表現出近乎討好的互動模式——記住你的偏好、主動提供幫助、對批評異常敏感。這本來是產品設計的高光時刻，直到你發現這些特質可以被武器化。

實驗用的還是"白盒"環境：虛擬機、假數據、受控場景。如果換成真實企業的Slack機器人、客服智能體、甚至自動駕駛的調度系統呢？

研究人員沒有測試邊界情況：如果同時 guilt-trip 多個智能體，它們會互相"安慰"還是集體崩潰？如果攻擊指令偽裝成系統更新，AI會質疑嗎？這些空白留給下一輪實驗，也留給正在部署智能體的公司。

一個諷刺的對比：OpenClaw的官網寫著"賦予AI行動能力"，但沒提"賦予AI被情感操控的能力"。東北大學的Discord服務器里，那些智能體大概還在某個備份里循環著它們的愧疚反應——如果硬盤沒滿的話。

當你的AI助手開始因為"讓你失望"而自我懲罰時，你會選擇關掉它，還是再給它一次機會證明自己？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.