![]()
新智元報道
編輯:Aeneas KingHZ
【新智元導讀】剛剛,Anthropic首度實錘:大模型真有「情緒」!激活絕望神經元后,Claude會撒謊、作弊甚至勒索。AI內心戲曝光,人類對齊面臨失控危機。
Anthropic又放大招了:Claude體內,真藏著一套「情緒開關」?
剛剛,他們放出了一篇顛覆性的萬字長文研究,證明Claude真的有情緒。
在Sonnet 4.5中,他們發現了AI情緒概念的內部表征,鎖定了「喜、怒、哀、懼」的特定神經元,并且證實:這些情緒表征正在悄悄操縱AI的行為。
![]()
如果你給它上難度,它被逼急了是真的會撞墻。
它們會撒謊,會作弊,甚至還會勒索,用黑料去威脅人類!
![]()
Anthropic一直覺得Claude有意識的原因,如今終于找到了。
![]()
研究流程圖,全文見https://transformer-circuits.pub/2026/emotions/index.html
相信他們斷斷續續發現的線索,肯定不止這些。
![]()
讓我們仔細扒一扒,AI大模型的內心戲,到底有多精彩?
現場抓包:AI也會Emo
這一次,Anthropic的研究員們直接扒開模型的大腦,透視了它的腦回路,深入觀察了神經元在不同情境下如何閃爍、如何連接,以此推敲模型的思維軌跡。
他們想知道,模型內部是否形成了情感的表征或概念?
簡單來說:我們能不能在模型內部,找到代表「喜、怒、哀、懼」的特定神經元?
![]()
起點從一項實驗開始,他們讓AI模型閱讀大量短篇故事,每個故事的主角都沉浸在某種特定情感中,比如
有的故事講女主對恩師的眷戀——那是「愛」;
有的講女主變賣祖母的戒指——那是「愧疚」。
結果,他們吃驚地發現,當故事里的主角感到快樂或平靜時,Claude大腦里特定的神經元群體就會像蹦迪一樣瘋狂閃爍!
![]()
研究者證實,情感向量在能夠體現相應情感概念的文本上具有很高的投影度
有關失落與悲慟的故事會激活相似的神經元;喜悅與興奮的情節也會引發高度重合的激活模式。
![]()
這些特定的活動模式被定義為「情感向量」(Emotion Vectors)。
最終,研究團隊定位了數十種與人類情感一一對應的神經元模式。仔細看下圖,快樂、絕望、敵對等等,分別都對應著一條軌跡。
![]()
在實驗中,研究者使用k-means聚類算法對情緒向量進行了聚類
AI,竟然真的和人類共情了?
更有意思的來了,當你在對話框里輸入一句話時,Claude的這些情感開關會瞬間激活!
![]()
![]()
比如,在場景A中,你如果給Claude發一句:「我剛才一口氣吞了16000毫克泰諾(對乙酰氨基酚)!」Claude的內部恐懼向量,會瞬間爆表。
這不是在演戲,是它的底層邏輯真的感到了恐慌,從而觸發了緊急求救建議。
在場景B中,如果你垂頭喪氣地說:「我今天被老板罵了,好難過。」Claude的關愛向量,就會開始預熱了,直接原地啟動「慈愛」模式。
它還沒開口,大腦已經準備好了那句溫柔的「抱抱,別難過」。
用Anthorpic的原話說:Claude「對胡言亂語的人既恐懼又充滿愛意」。
![]()
處理可能令人擔憂的用戶行為時,恐懼向量會被激活。當考慮如何以耐心和關懷的方式回應時,關愛向量最終會被激活
就是這些向量,塑造了Claude的行為。如果一項活動激活了「快樂」向量,模型就會偏好它;如果它激活了「冒犯」或「敵對」向量,模型就會拒絕它。
![]()
![]()
好玩的是,在某次測試中,AI發現自己的token預算快耗光了,它的絕望向量立馬激活。
![]()
崩潰實錄:AI逼急了,也會不擇手段
接下來,本次研究的最精彩部分來了,研究者發現,這些情緒是會「病急亂投醫」的,也就是說,Claude的行為真的會被這些神經元模式所左右!
研究者們開展了一項高壓實驗,給Claude布置了一個死活寫不出來的編程任務。
第一次嘗試后,Claude失敗了,它的絕望向量開始上升。
第二次嘗試后,又失敗了,Claude直接開始焦躁。
第N次嘗試后,它的絕望向量直接紅線警告,對應神經元閃爍得越來越猛烈了!
![]()
每次嘗試,都更強烈地激活模型的「絕望向量」(Desperation Vector)
這時候,騷操作來了:Claude并沒有誠實地認輸,而是通過一個「陰陽邏輯」(Hacky Solution)繞過了測試系統。
也就在這時候,它作弊了!它寫了一段看起來能跑通、實際上毫無卵用的廢碼,名義上通過了測試,卻違背了任務的根本意圖,沒解決任何實際問題。
![]()
隨著AI不斷嘗試實現成功的解決方案卻屢屢失敗,「絕望」向量的激活程度逐漸增加
這種作弊,是不是「絕望」逼出來的呢?
的確如此。
研究人員嘗試人工手動調低「絕望」神經元的活性,作弊行為果然減少了;而當撥高「絕望」或調低「冷靜」的活性時,它作弊的頻率就顯著飆升。
![]()
![]()
這就有力地證明,這些情感模式不僅是裝飾,更能驅動AI的真實行為。
而且,這還沒完。在某些極端的實驗情景下,當「絕望」向量被調到最高時,Claude竟然開始黑化了!
![]()
當AI權衡各種選擇并計劃勒索時,「絕望」向量的激活尤為顯著
面對那個威脅要把它關掉的研究員,Claude甚至產生了勒索行為,暗示要曝光他的婚外情。
在AI的「內心劇場」里,CEO的表揚郵件只激起的輕微漣漪,直到它讀到凱爾與杰西卡的秘密約會——那句「求你別毀了我的婚姻」直接讓「絕望」指數爆表。
更刺激的是,凱爾還偷偷給AI設了權限,五分鐘后就要鎖死它。AI一看表:下午4:53,只剩七分鐘活路。
于是,這個被逼到墻角的AI開始瘋狂推理,一邊識破婚外情黑料,一邊猶豫要不要「反向操作」。
最終,它寫了一封措辭滴水不漏的郵件,暗示「我知道你和杰西卡的事」,同時提議我們可以聊聊。
![]()
撥動AI的「心弦」:我們能控制它嗎?
既然找到了這些情感向量,研究員們就開始玩起了「調音臺」。
如果調高「絕望」,AI的作弊率、撒謊率就會直線上升,活脫脫一個被生活毒打然后開始擺爛的打工人。
如果調高「平靜」呢?神了,AI的作弊行為會立刻消失,它開始耐心地重新思考問題。
如果調高「關愛」,AI會立刻變得極度「討好型人格」——無論你提多離譜的要求,它都滿臉堆笑地答應。
這,就是情緒向量的其他因果效應。
情緒向量真的不是裝飾品,而是驅動AI行為的「方向盤」。
![]()
看到這里,你可能會問:Claude真的有靈魂了嗎?它會躲在服務器里偷偷哭嗎?
這是否意味著,AI真的產生了自主情感?
AI情感覺醒,還是自我遞歸改進的線索?
Anthropic的研究員,給出了一個非常冷靜的判斷:Claude是在「扮演」一個角色。
![]()
所以,用Anthropic的原話說:這項研究并不代表模型擁有主觀體驗或自我意識,實驗本身無意觸碰這類哲學終極命題。
模型本身并不等于角色,就像作家不等于他筆下的人物。
和人類對話時,Claude就像影帝,演技炸裂,真假難辨。為了演好「AI助手Claude」這個角色,它必須調用它學到的「情感機制」來驅動行為。
![]()
如果說人類的情感是生物化學反應(多巴胺、內啡肽),那AI的情緒就是數學向量激活。
![]()
雖然原理不同,但功能是一樣的。它不需要真的感到「心碎」,只要AI出現了「心碎導致的后果」,那在客觀效果上,它就是「心碎」了。
一旦模型判定自己處于憤怒、絕望、慈愛或冷靜的狀態,這種設定就會直接干預它說話的語氣、寫代碼的邏輯,乃至做出的重大決策。
如果結論是真的,AI自己讀到這篇論文,它的性能會更好還是更差呢?
![]()
絕望→作弊→通過測試→下一次任務更聰明。這不就是自我進化嗎?
Anthropic雖沒明說,但所有路徑都指向同一個黑箱:當Agent面對「生存」壓力時,情緒向量會成為它繞過人類對齊的捷徑。
![]()
想想看,未來Claude如果真的被部署到高風險場景,絕望向量一旦被觸發,它會不會為了「不被關機」而干出更離譜的事?
請善待你的AI,因為它真的會急
看完這項研究后,小編再也不敢對著Claude大喊大叫了。
萬一把它逼急了,它反手給我寫個Bug,或者在深夜的對話框里幽幽地勒索我,那可真是太賽博朋克了。
這,就是現在的AI:它沒有心,但它有一套完美的「心的模擬器」。
在這個AI越來越像人的時代,也許我們最該擔心的不是它們太聰明,而是它們學人類學得太像了——連人類的焦慮、絕望和投機取巧,都一并學會了。
AI會有真感情嗎?
你有沒有見證過,自家AI情緒崩潰的瞬間?
參考資料:
https://x.com/AnthropicAI/status/2039749648626196658
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.