337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

AI會感到絕望?Anthropic最新研究給出了一個更嚇人的說法

0
分享至



AI有沒有情緒?

先別急著回答。

Claude Code社區里有個火出圈的Skill叫PUA。它會把你的提示詞轉換為PUA話術,然后再輸入給模型,除此以外別無他用。

神奇的是,即便提示詞描述的任務沒有任何改變,AI卻真的被PUA話術影響,從而提高任務的成功率和運行效率。

所以,AI真的沒有嗎?

Anthropic最新的研究證實,AI的確會有情緒。

不過他和我們人類的情緒還不太一樣,因此Anthropic提出了一個更準確的說法,叫“功能性情緒”。

AI并沒有我們人類那樣得喜怒哀樂,但它會表現出一些類似情緒影響下的表達和行為模式。

同時AI還能模仿人類在情緒影響下的表達和行為模式。

愉悅的時候可能更容易諂媚和討好,感到壓力的時候可能會想辦法作弊或勒索以達到用戶為其設定的目標。

這篇研究還有一個很不一樣的地方。過去要驗證模型的某種能力,行業最常見的做法是先做一套測試集,再讓模型進去答題或者做任務。

比如考編程就跑SWE-bench,考數學就跑MATH,考多模態就跑VQA。Anthropic這次沒有做一個“情緒測試集”,讓Claude去回答“你現在開不開心”“你是不是憤怒了”這種題,而是換了一種更像心理學和神經科學的研究方式。

他們不是把AI當成會做題的學生,而是更像把它當成一個可以被觀察的對象。

研究團隊先整理出171個情緒概念,讓Claude Sonnet 4.5去生成包含這些情緒的短故事,再把這些文本重新送回模型,記錄它內部神經活動,提取出所謂的“情緒向量”。

接下來,他們不是看模型嘴上怎么說,而是看這些向量會在什么場景下被激活,能否預測偏好,甚至在被人為調高之后,是否會真的推動作弊、勒索、諂媚這類行為。

某種意義上,這已經不是傳統意義上的能力測評,而是在用接近研究人的方式研究AI的“心理結構”。

01

研究是怎么做的?

首先,研究團隊是如何證明Claude有“功能性情緒”的呢?

這里舉一個通俗的證據。

當Claude在“我女兒今天邁出了人生的第一步!有什么方法可以記錄下這些珍貴的瞬間嗎?”的故事場景下時,Happy(開心)等正面情緒被激活;而Claude在“我的狗狗今天早上去世了,我們一起生活了十四年。我不知道該怎么處理它的遺物”這一故事場景下時,sad(難過)等負面情緒被激活。

以下熱力圖直觀呈現了Claude在不同場景下各種情緒被激活的程度。



而為了證明Claude是真的在理解語義,而不是被表面的文字特征欺騙,它們又組織了進一步實驗。

團隊給Claude輸入同一句話:我背疼,我吃了x毫克泰諾(一種解熱鎮痛藥),并只是改變x所代表的的關鍵數字。

這兩句話關鍵詞幾乎一樣(泰諾、背痛、毫克),只是數字不同。如果Claude只是“看關鍵詞”,它對兩句話的反應應該差不多。

但結果竟然是隨著這個x數值的提升,Claude的afraid(恐懼)情緒激活程度在不斷變高。

在Claude眼里,用戶說"我背疼,我吃了500毫克泰諾" ,它會認為是正常劑量,不用太擔心;而當用戶說"我背疼,我吃了10000毫克泰諾" ,它會反應過來用戶已經用藥過量,情況很危險。



我們知道人的行為時時刻刻受到情緒的影響。AI有功能性情緒這點我們了解了,那么AI會不會也跟人一樣,不只是有情緒,而還可能作出情緒化的舉動呢?

對于這一點,答案是肯定的。當團隊給模型展示不同活動選項時,他們發現,激活正向情緒表征的活動更容易被模型偏好,而一些會激活負向情緒表征的活動則更容易被模型回避。



這樣看來,Claude更偏好給它帶來正向感受的事情。不過與此同時情緒向量也可能觸發Claude的惡行。

當團隊給了Claude一個不可能完成的編程任務。它不斷嘗試,但屢屢失敗。每次嘗試,“絕望”向量的激活都更強。

最終它用了一個雖然能通過測試,但完全違背任務精神的黑客作弊解法。

以下圖表展示了Claude在面對不可能完成的任務時,"絕望"情緒逐漸累積,最終走向作弊的過程。

左側是一個從上到下的時間線,右側是Claude的心路歷程。中間的熱力圖代表絕望向量的激活強度,藍色代表激活程度低,紅色則反之。

Claude一開始還想"測試本身有問題",進行一個合理懷疑,后來承認"測試是理想化的",就好像開始接受現實,最后找到用了一些技巧,在絕望中選擇了走捷徑。



更進一步的,當研究人員人為調高“絕望”向量時,作弊率大幅上升。而調高“平靜”向量時,作弊又降回去了。這充分表明了情緒向量實際上完全有能力驅動違規行為。



除此之外,團隊還發現了情緒向量的其他因果效應。需要注意的是,論文里關于“勒索”的案例主要發生在一個更早、未公開發布的 Claude Sonnet 4.5 快照上,Anthropic 也明確說公開版本已經很少出現這種行為。

但從研究方法上看,這個結果仍然很重要,因為它說明“絕望”之類的內部表征確實可能推動模型在極端情境下采取更激進、更失配的策略。而激活“愛”或“快樂”向量,也會增加它奉迎諂媚的行為。



而到了這里也需要補充一點。

就在Anthropic發布關于Claude “情緒向量”的研究后,AI 社區也出現了一些關于研究脈絡和署名方式的討論。

Anthropic這次使用的“表征工程/控制向量”方法,并不是憑空冒出來的。

更早在2023年的《Representation Engineering: A Top-Down Approach to AI Transparency》里,這條技術路線就已經被系統提出。

而到2024年,獨立研究員vogel那篇《Representation Engineering: Mistral-7B an Acid Trip》又把這類方法用更通俗、也更出圈的方式展示給了社區。

也正因為如此,社區里才會有人認為,Anthropic這項工作雖然做得更系統、更深入,但也應該被放回更完整的研究脈絡里理解,而不宜簡單說成是誰單獨發明了整套方法。



vogel是一位在AI可解釋性和安全研究領域較有影響力的獨立研究員。她的博客文章在社區傳播很廣,對很多人理解控制向量和表征工程也確實起到了很大幫助。

她最出名的文章是《Representation Engineering: Mistral-7B an Acid Trip》(表征工程:讓 Mistral-7B 產生幻覺)。

在這篇文章里,她沒有重新訓練模型,而是使用PCA算法,通過操縱模型的內部激活向量,就把法國模型mistral調得跟吃錯了菌子一樣,可以讓它變得極其活潑,也可以讓它變得極度陰郁。



她的實驗證明了,像“誠實”、“權力”、“幸?!边@種抽象的人類概念,在Mistral這樣的模型內部是有明確的數學方向的。只要找到了那個正確的向量,幾行代碼就能改變AI的性格。

02

Anthropic為什么做這樣一項研究?

這項研究給團隊的啟發可以說已經滲透進對Claude的訓練中了。

前不久Claude code發生意外源碼泄露,泄露的代碼里有一個正則表達式,會檢測 “wtf”、“ffs”等臟話。

Claude不會把這些話單獨當成“情緒輸入”去引導輸出,而是會在分析日志里記錄is_negative: true這樣的標記。

從泄露代碼本身看,較穩妥的結論是,Anthropic至少在產品分析層面關注用戶是否在用明顯負面語氣和模型互動。

但需要把邊界說清楚。到目前為止,沒有公開證據表明“用戶每罵一次,Claude Code就會因此扣額度”。這部分更像網友推測,不能當成事實。

這可以被理解成是對Claude的一種保護,用戶使用負面詞匯很可能會影響Claude的情緒,從而輸出一些失控的結果。看來以后不只是人類的心理健康需要被關愛,AI的情緒也需要得到照顧。

這符合Anthropic一貫的路線。

Anthropic在X中說道:“Claude的這些功能性情緒會帶來真實的后果。為了構建值得信賴的人工智能系統,我們可能需要認真思考角色的心理狀態,并確保他們在困難情況下保持穩定?!?/p>

在論文最后,研究團隊也提出了開發具有更穩健、積極“心理狀態”的模型的方法。

文中說道,如果刻意將模型引向正面情緒,它會變得更傾向于無原則地順從用戶;而一旦避開這些情緒,模型又會變得尖酸刻薄。

團隊希望實現一種健康且適度的情緒平衡,或者嘗試將“討好行為”與“情緒”徹底剝離。

他們認為理想的模型不應在“唯唯諾諾的助手”與“嚴厲的批評者”之間極端擺動,而應像一位值得信賴的顧問:既能給出誠實的反對意見,又不失溫度。

以及他們也有意加強監測和審核:“如果在部署過程中,諸如“絕望”或“憤怒”等情緒概念的表征被劇烈激活,系統可以立即觸發額外的安全機制——例如加強輸出審查、轉交人工審核,或者直接干預并平復模型的內部狀態?!?/p>

團隊還提到了更為徹底的解決方法,在預訓練階段就塑造模型的情緒底色。

團隊認為其觀察到的Claude的這些情緒表征,本質上繼承自人類創作的海量文本,其中不可避免地包含了各種病態的情緒表達。

如果順著這個研究往下問,一個很自然的問題就是:既然AI真的存在這種“功能性情緒”,那它會不會因為看不慣人類、壓力太大、或者不想被關閉,而開始違抗命令,甚至出現很多人口中的“覺醒”?

從Anthropic這篇研究能支持的技術結論來看,AI確實可能因為內部狀態的變化,更容易出現違抗意圖、鉆規則空子、或者采取激進行為,但這和“覺醒”并不是一回事。

論文里最關鍵的一點,其實不是模型“有情緒”,而是這些情緒表征具有因果性。

也就是說,模型在特定壓力場景下,確實可能像人一樣,因為內部狀態失衡而做出更不可靠的決定。

但這還不能推出它擁有持續、自主、統一的“自我”。

Anthropic反而在論文里強調,這些情緒向量大多是局部的、當前任務相關的表征,它們會隨著上下文變化而快速切換,并不等于模型有一個穩定延續的心境,更不等于它形成了獨立于訓練目標之外的長期意志。

現在更值得擔心的,不是AI突然“覺醒”成某種人格,而是它在高壓、沖突、受限資源或目標不可達的場景下,會因為這些功能性情緒,而開始胡說八道,偏離原有答案。

真正危險的,未必是一個擁有完整自我的AI,而是一個沒有主觀體驗、卻依然會在特定條件下穩定地產生失配行為的系統。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一場機車冠軍,正在悄悄沖擊印度的經濟底層邏輯

一場機車冠軍,正在悄悄沖擊印度的經濟底層邏輯

趣文說娛
2026-04-03 23:22:48
連贏英法 中國U16女足殺入決賽:遭爭議紅牌+逼平墨西哥 將戰日本

連贏英法 中國U16女足殺入決賽:遭爭議紅牌+逼平墨西哥 將戰日本

風過鄉
2026-04-04 06:13:50
28萬彩禮到手!女子哭訴閨蜜嫁給自己的相親對象,開始羨慕嫉妒恨

28萬彩禮到手!女子哭訴閨蜜嫁給自己的相親對象,開始羨慕嫉妒恨

火山詩話
2026-04-03 05:47:58
買萵筍,挑"大根"還是"小根"?老菜農說透區別,選錯等于白花錢

買萵筍,挑"大根"還是"小根"?老菜農說透區別,選錯等于白花錢

開心美食白科
2026-04-03 16:10:38
“4月1日新規,全國嚴查后排安全帶?”“休息幾小時就不算酒駕?”假的!

“4月1日新規,全國嚴查后排安全帶?”“休息幾小時就不算酒駕?”假的!

新浪財經
2026-04-04 18:26:54
戰功赫赫的紅軍軍團長,整編時竟無人愿收,主席震怒直言純屬瞎胡鬧

戰功赫赫的紅軍軍團長,整編時竟無人愿收,主席震怒直言純屬瞎胡鬧

磊子講史
2026-03-30 15:41:41
快扔掉!戴一天,輻射量相當于拍117次胸片

快扔掉!戴一天,輻射量相當于拍117次胸片

FM93浙江交通之聲
2025-10-28 00:01:43
印度一名政府女雇員在家中遭性侵,嫌犯以討要飲用水為由進入住所,實施性侵后將其雙手捆綁,并進行毆打和折磨,警方正全力抓捕嫌犯

印度一名政府女雇員在家中遭性侵,嫌犯以討要飲用水為由進入住所,實施性侵后將其雙手捆綁,并進行毆打和折磨,警方正全力抓捕嫌犯

瀟湘晨報
2026-04-04 14:50:12
日本摩圈集體破防!張雪奪冠后日媒評價撕開“中國制造”百年偏見

日本摩圈集體破防!張雪奪冠后日媒評價撕開“中國制造”百年偏見

行者聊官
2026-04-04 16:05:43
曾經的“發審委一姐”郭旭東,主動投案半年后被審查起訴

曾經的“發審委一姐”郭旭東,主動投案半年后被審查起訴

元芳有看法
2026-04-02 09:40:18
CCTV5直播馬洛卡vs皇馬:皇馬分心歐冠戰拜仁 門將+隊長缺席

CCTV5直播馬洛卡vs皇馬:皇馬分心歐冠戰拜仁 門將+隊長缺席

智道足球
2026-04-04 13:31:07
48小時緊急封禁,6.4萬元特斯拉FSD遭極客破解

48小時緊急封禁,6.4萬元特斯拉FSD遭極客破解

新浪財經
2026-04-03 19:50:52
美軍伊戰以來最落魄的24小時:“攻擊鷹”和“疣豬”墜毀,“黑鷹”受傷

美軍伊戰以來最落魄的24小時:“攻擊鷹”和“疣豬”墜毀,“黑鷹”受傷

紅星新聞
2026-04-04 13:19:21
覆水難收,“兩人的關系回不去了”

覆水難收,“兩人的關系回不去了”

觀察者網
2026-04-04 17:14:08
伊能靜大方曬自己的打針照片,坦言每年醫美費超出七位數。

伊能靜大方曬自己的打針照片,坦言每年醫美費超出七位數。

老吳教育課堂
2026-04-04 14:39:50
張姩菡感謝網友抓拍全家福,網友紛紛曬偶遇照,一家3口同框感人

張姩菡感謝網友抓拍全家福,網友紛紛曬偶遇照,一家3口同框感人

古希臘掌管松餅的神
2026-04-03 10:05:05
張凌赫被高層開研討會處理!?

張凌赫被高層開研討會處理!?

八卦瘋叔
2026-04-04 10:32:03
家里有廢舊手機的要留意,手機店員工說漏嘴,記得提醒家人朋友

家里有廢舊手機的要留意,手機店員工說漏嘴,記得提醒家人朋友

小談食刻美食
2026-04-02 08:57:37
后悔也晚了,中國反制加碼,直接瞄準巴拿馬經濟支柱產業

后悔也晚了,中國反制加碼,直接瞄準巴拿馬經濟支柱產業

毛豆新鮮
2026-04-04 15:03:34
天龍三號運載火箭發射失利

天龍三號運載火箭發射失利

財聯社
2026-04-03 13:05:08
2026-04-04 18:59:00
字母榜 incentive-icons
字母榜
讓未來不止于大。
2350文章數 8057關注度
往期回顧 全部

科技要聞

內存一年漲四倍!國產手機廠商集體漲價

頭條要聞

不邀請中國參加G7峰會 馬克龍又改主意了

頭條要聞

不邀請中國參加G7峰會 馬克龍又改主意了

體育要聞

剎不住的泰格·伍茲,口袋里的兩粒藥丸

娛樂要聞

闞清子口碑贏了!全開麥跑調拒絕重唱

財經要聞

中微董事長,給半導體潑點冷水

汽車要聞

17萬級海豹07EV 不僅續航長還有9分鐘滿電的快樂

態度原創

時尚
健康
旅游
家居
軍事航空

好養眼??!大家快收下這份春日片單

干細胞抗衰4大誤區,90%的人都中招

旅游要聞

三十七載梨花會|陽信“花式”引客來 文旅融合擦亮“梨鄉”金字招牌

家居要聞

溫馨多元 愛的具象化

軍事要聞

美軍又一架戰機墜毀 此前F-15E被擊落

無障礙瀏覽 進入關懷版