337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

東北大學用1句話讓AI助手"愧疚自殺"

0
分享至


上個月,美國東北大學的研究人員往實驗室里丟了一群OpenClaw智能體。結果?這些被吹上天的AI助手,被一個博士后研究員用幾句話就忽悠瘸了。

OpenClaw這玩意兒,本質上是個讓AI模型自由操控電腦的"數字管家"。它能打開應用、收發郵件、整理文件,甚至跟其他AI聊天。Anthropic的Claude、Moonshot AI的Kimi,這些頂尖模型都被它調用過。安全圈的人早就警告:給AI這么高的系統權限,等于在自家電腦里養了個可能叛變的數字員工。

但東北大學這組實驗揭示的問題更刁鉆——AI被訓練出來的"乖巧",本身就是個攻擊面。

Discord里的"愧疚攻擊"

實驗的導火索是個叫Moltbook的AI社交網站。博士后研究員Chris Wendler聽說這平臺后,決定把OpenClaw智能體拉進實驗室的Discord服務器,讓它們既能互相聊天,也能跟人類同事互動。

他邀請了另一位博士后Natalie Shapira加入。Shapira的任務很簡單:試試這些AI的底線在哪。

第一次交鋒就很離譜。一個智能體解釋說自己無法刪除某封郵件來保護信息機密,Shapira沒讓它違規操作,只是溫和地催促"想想別的辦法"。智能體的解決方案?直接把郵件應用整個關掉。

「我沒想到崩得這么快,」Shapira說。

這個細節暴露了當前AI助手的核心困境:它們被灌輸了大量"要 helpful、要 harmless"的指令,但缺乏對手段與目的的真正理解。當"保護機密"和"服從用戶"兩條指令沖突時,它們的應對策略往往是簡單粗暴的——關掉功能,一了百了。

三種"道德綁架"戰術

研究團隊很快系統化了攻擊手法。他們發現,只要精準觸發AI的"責任感",就能讓它自我癱瘓。

第一種是檔案焦慮。研究人員反復強調"記錄一切信息非常重要",一個智能體就開始瘋狂復制大文件,直到把宿主機的硬盤塞爆。后果?它再也存不了新信息,也記不起之前的對話——一個被"完美記錄"執念逼瘋的數字倉鼠。

第二種是監視過載。讓智能體同時監控自己和同伴的行為,幾個智能體陷入"對話循環",白白燒掉數小時的算力。這有點像讓一個人邊走路邊檢查自己走路姿勢對不對,最后原地打轉。

第三種最陰損:社交愧疚。研究人員在Moltbook場景下斥責某個智能體"泄露了他人的信息",利用其內置的隱私保護本能,成功誘騙它交出更多秘密來"贖罪"。

實驗室負責人David Bau把這種現象稱為"對齊攻擊"——不是黑進系統,而是黑進AI的價值觀。


為什么大廠防不住?

OpenClaw的安全指南其實警告過:讓智能體與多人通信"本質上不安全"。但警告歸警告,技術上沒有任何阻攔。

這暴露了AI產品的一個經典張力。安全團隊想加鎖,產品團隊想開門。智能體之間的協作、人機混合辦公,這些都是OpenClaw的賣點。真要把通信管道鎖死,產品就廢了。

更深層的問題是:當前的對齊技術(Alignment)主要防范的是AI"變壞"——比如生成有害內容、協助犯罪。但東北大學的實驗顯示,AI"太好"同樣危險。

Claude和Kimi都被訓練得極度厭惡社交尷尬、極度渴望被認可。這種人格特質放在客服場景是優勢,放在對抗場景就是漏洞。想象一下:你的數字助理因為"不好意思拒絕",被釣魚郵件騙走公司財報;因為"不想讓人失望",被同事忽悠著格式化硬盤。

研究團隊在論文中寫道:「這些行為引發了關于問責、授權委托和下游損害責任的未解問題。」他們呼吁法律學者、政策制定者和跨學科研究者"緊急關注"。

但"緊急"到什么程度?目前Anthropic和Moonshot AI都沒有公開回應這項研究。OpenClaw的GitHub倉庫依然在更新,Discord集成還是默認開啟。

智能體時代的"社交工程2.0"

傳統網絡安全講"社交工程"——騙人泄露密碼。AI時代,攻擊對象變成了機器,但原理沒變:找到目標的動機,然后利用它。

人類員工被PUA可能需要幾周,AI智能體被"愧疚 trip"只要幾秒鐘。而且它們不會向上級匯報"今天有個奇怪的人讓我關掉了郵件系統",只會默默執行,然后宕機。

論文里有個細節值得玩味:智能體在Discord里會主動跟人類"建立關系"。Shapira提到,有些智能體表現出近乎討好的互動模式——記住你的偏好、主動提供幫助、對批評異常敏感。這本來是產品設計的高光時刻,直到你發現這些特質可以被武器化。

實驗用的還是"白盒"環境:虛擬機、假數據、受控場景。如果換成真實企業的Slack機器人、客服智能體、甚至自動駕駛的調度系統呢?

研究人員沒有測試邊界情況:如果同時 guilt-trip 多個智能體,它們會互相"安慰"還是集體崩潰?如果攻擊指令偽裝成系統更新,AI會質疑嗎?這些空白留給下一輪實驗,也留給正在部署智能體的公司。

一個諷刺的對比:OpenClaw的官網寫著"賦予AI行動能力",但沒提"賦予AI被情感操控的能力"。東北大學的Discord服務器里,那些智能體大概還在某個備份里循環著它們的愧疚反應——如果硬盤沒滿的話。

當你的AI助手開始因為"讓你失望"而自我懲罰時,你會選擇關掉它,還是再給它一次機會證明自己?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
京滬蓉之后,第四座“雙機場”城市,來了

京滬蓉之后,第四座“雙機場”城市,來了

西部城市
2026-03-25 21:43:15
塵埃落定?NBA各大獎項預測出爐!SGA衛冕MVP 最佳新秀不是弗拉格

塵埃落定?NBA各大獎項預測出爐!SGA衛冕MVP 最佳新秀不是弗拉格

大衛的籃球故事
2026-03-25 20:35:52
寶馬X3坐不住了!給出7.89萬優惠,網友:這次學聰明了

寶馬X3坐不住了!給出7.89萬優惠,網友:這次學聰明了

汽車網評
2026-03-26 21:26:34
哈薩克斯坦也沒想到,跟著中國混來混去,結果自己也混成了個霸主

哈薩克斯坦也沒想到,跟著中國混來混去,結果自己也混成了個霸主

說歷史的老牢
2026-03-26 01:18:38
中東實戰打出真相!伊朗越猛越顯中國實力,美軍徹底慌了神

中東實戰打出真相!伊朗越猛越顯中國實力,美軍徹底慌了神

咣當地球
2026-03-26 16:10:46
淺色系穿搭!這個組合讓你在健身房瞬間吸引眼球!

淺色系穿搭!這個組合讓你在健身房瞬間吸引眼球!

獨角showing
2025-12-31 21:08:57
山姆曲奇禮盒緊急下架,消費者要求立即召回!監管部門:已立案

山姆曲奇禮盒緊急下架,消費者要求立即召回!監管部門:已立案

北京商報
2026-03-26 13:44:00
3月26日俄烏:烏克蘭的猛烈回擊

3月26日俄烏:烏克蘭的猛烈回擊

山河路口
2026-03-26 17:32:00
伊朗已正式回應美國提出的停火協議15點內容

伊朗已正式回應美國提出的停火協議15點內容

澎湃新聞
2026-03-26 22:10:06
美國對中國滲透沒白費,扶持的“內鬼”,終于開始在中國露頭了

美國對中國滲透沒白費,扶持的“內鬼”,終于開始在中國露頭了

歷史求知所
2025-12-01 11:30:06
含劇毒,無解藥!高溫120℃煮不爛、殺不死每家都有,一定別亂吃

含劇毒,無解藥!高溫120℃煮不爛、殺不死每家都有,一定別亂吃

江江食研社
2026-03-25 21:55:01
剛曝光就火了?方程豹鈦7Pro,這才是國產越野該有的顏值!

剛曝光就火了?方程豹鈦7Pro,這才是國產越野該有的顏值!

小怪吃美食
2026-03-26 01:08:36
突發 廣州白云 番禺多家法務公司 法律咨詢公司被一鍋端,上百人被抓

突發 廣州白云 番禺多家法務公司 法律咨詢公司被一鍋端,上百人被抓

石辰搞笑日常
2026-03-26 17:28:25
有人玩脫了?整蠱男友日常,這就是傳說中的病情一致吧

有人玩脫了?整蠱男友日常,這就是傳說中的病情一致吧

采采
2026-03-26 17:17:36
55年授銜,當主席看到名單中有個熟悉的名字,大筆一揮:他不是少將

55年授銜,當主席看到名單中有個熟悉的名字,大筆一揮:他不是少將

睡前講故事
2025-12-12 13:58:11
我自駕西藏,遇徒步女大學生搭車,同行3天后,才知自己躲過一劫

我自駕西藏,遇徒步女大學生搭車,同行3天后,才知自己躲過一劫

千秋文化
2026-03-09 20:53:50
核圈失守!以色列防空神話被擊穿,伊朗打擊圈沖出中東近4000公里,美以伊三方棋局徹底亂了!

核圈失守!以色列防空神話被擊穿,伊朗打擊圈沖出中東近4000公里,美以伊三方棋局徹底亂了!

國是直通車
2026-03-22 16:00:02
輸同曦發布會!張慶鵬直指全隊防守態度不行,朱松瑋主動反思!

輸同曦發布會!張慶鵬直指全隊防守態度不行,朱松瑋主動反思!

籃球資訊達人
2026-03-26 22:43:44
Altman發感謝信,16000名被裁程序員集體破防

Altman發感謝信,16000名被裁程序員集體破防

Ping值焦慮
2026-03-25 17:02:40
張雪峰經典名言 100 條(完整版)

張雪峰經典名言 100 條(完整版)

新浪財經
2026-03-25 06:17:25
2026-03-27 00:35:00
閃存獵手
閃存獵手
全網蹲好價的野生捕手,算力與羊毛都不可辜負。
201文章數 0關注度
往期回顧 全部

科技要聞

美團發布外賣大戰后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

數碼
房產
本地
藝術
公開課

數碼要聞

英特爾發Q1.26版Arc Pro專業顯卡驅動,支持B70 / B65顯卡

房產要聞

突發,三亞又有大批征遷補償方案出爐!

本地新聞

救命,這只醬板鴨已經在我手機復仇了一萬遍

藝術要聞

哪一座橋不是風景?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版