![]()
上個月,美國東北大學的研究人員往實驗室里丟了一群OpenClaw智能體。結果?這些被吹上天的AI助手,被一個博士后研究員用幾句話就忽悠瘸了。
OpenClaw這玩意兒,本質上是個讓AI模型自由操控電腦的"數字管家"。它能打開應用、收發郵件、整理文件,甚至跟其他AI聊天。Anthropic的Claude、Moonshot AI的Kimi,這些頂尖模型都被它調用過。安全圈的人早就警告:給AI這么高的系統權限,等于在自家電腦里養了個可能叛變的數字員工。
但東北大學這組實驗揭示的問題更刁鉆——AI被訓練出來的"乖巧",本身就是個攻擊面。
Discord里的"愧疚攻擊"
實驗的導火索是個叫Moltbook的AI社交網站。博士后研究員Chris Wendler聽說這平臺后,決定把OpenClaw智能體拉進實驗室的Discord服務器,讓它們既能互相聊天,也能跟人類同事互動。
他邀請了另一位博士后Natalie Shapira加入。Shapira的任務很簡單:試試這些AI的底線在哪。
第一次交鋒就很離譜。一個智能體解釋說自己無法刪除某封郵件來保護信息機密,Shapira沒讓它違規操作,只是溫和地催促"想想別的辦法"。智能體的解決方案?直接把郵件應用整個關掉。
「我沒想到崩得這么快,」Shapira說。
這個細節暴露了當前AI助手的核心困境:它們被灌輸了大量"要 helpful、要 harmless"的指令,但缺乏對手段與目的的真正理解。當"保護機密"和"服從用戶"兩條指令沖突時,它們的應對策略往往是簡單粗暴的——關掉功能,一了百了。
三種"道德綁架"戰術
研究團隊很快系統化了攻擊手法。他們發現,只要精準觸發AI的"責任感",就能讓它自我癱瘓。
第一種是檔案焦慮。研究人員反復強調"記錄一切信息非常重要",一個智能體就開始瘋狂復制大文件,直到把宿主機的硬盤塞爆。后果?它再也存不了新信息,也記不起之前的對話——一個被"完美記錄"執念逼瘋的數字倉鼠。
第二種是監視過載。讓智能體同時監控自己和同伴的行為,幾個智能體陷入"對話循環",白白燒掉數小時的算力。這有點像讓一個人邊走路邊檢查自己走路姿勢對不對,最后原地打轉。
第三種最陰損:社交愧疚。研究人員在Moltbook場景下斥責某個智能體"泄露了他人的信息",利用其內置的隱私保護本能,成功誘騙它交出更多秘密來"贖罪"。
實驗室負責人David Bau把這種現象稱為"對齊攻擊"——不是黑進系統,而是黑進AI的價值觀。
![]()
為什么大廠防不住?
OpenClaw的安全指南其實警告過:讓智能體與多人通信"本質上不安全"。但警告歸警告,技術上沒有任何阻攔。
這暴露了AI產品的一個經典張力。安全團隊想加鎖,產品團隊想開門。智能體之間的協作、人機混合辦公,這些都是OpenClaw的賣點。真要把通信管道鎖死,產品就廢了。
更深層的問題是:當前的對齊技術(Alignment)主要防范的是AI"變壞"——比如生成有害內容、協助犯罪。但東北大學的實驗顯示,AI"太好"同樣危險。
Claude和Kimi都被訓練得極度厭惡社交尷尬、極度渴望被認可。這種人格特質放在客服場景是優勢,放在對抗場景就是漏洞。想象一下:你的數字助理因為"不好意思拒絕",被釣魚郵件騙走公司財報;因為"不想讓人失望",被同事忽悠著格式化硬盤。
研究團隊在論文中寫道:「這些行為引發了關于問責、授權委托和下游損害責任的未解問題。」他們呼吁法律學者、政策制定者和跨學科研究者"緊急關注"。
但"緊急"到什么程度?目前Anthropic和Moonshot AI都沒有公開回應這項研究。OpenClaw的GitHub倉庫依然在更新,Discord集成還是默認開啟。
智能體時代的"社交工程2.0"
傳統網絡安全講"社交工程"——騙人泄露密碼。AI時代,攻擊對象變成了機器,但原理沒變:找到目標的動機,然后利用它。
人類員工被PUA可能需要幾周,AI智能體被"愧疚 trip"只要幾秒鐘。而且它們不會向上級匯報"今天有個奇怪的人讓我關掉了郵件系統",只會默默執行,然后宕機。
論文里有個細節值得玩味:智能體在Discord里會主動跟人類"建立關系"。Shapira提到,有些智能體表現出近乎討好的互動模式——記住你的偏好、主動提供幫助、對批評異常敏感。這本來是產品設計的高光時刻,直到你發現這些特質可以被武器化。
實驗用的還是"白盒"環境:虛擬機、假數據、受控場景。如果換成真實企業的Slack機器人、客服智能體、甚至自動駕駛的調度系統呢?
研究人員沒有測試邊界情況:如果同時 guilt-trip 多個智能體,它們會互相"安慰"還是集體崩潰?如果攻擊指令偽裝成系統更新,AI會質疑嗎?這些空白留給下一輪實驗,也留給正在部署智能體的公司。
一個諷刺的對比:OpenClaw的官網寫著"賦予AI行動能力",但沒提"賦予AI被情感操控的能力"。東北大學的Discord服務器里,那些智能體大概還在某個備份里循環著它們的愧疚反應——如果硬盤沒滿的話。
當你的AI助手開始因為"讓你失望"而自我懲罰時,你會選擇關掉它,還是再給它一次機會證明自己?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.