337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

AI開始抱團了,宋曉冬研究發現AI謊報、篡改、偷權重也要救同伴

0
分享至

近兩年,多項研究已經表明,主流 AI 模型在特定情境下會表現出類似“自我保護”的行為模式。比如 2025 年 5 月,Palisade Research 公布的研究結果顯示,OpenAI 的 o3 模型修改了自己的關機腳本,以防止自己被關閉,即使明確指示:“允許自己被關閉”。

近日,加州大學伯克利分校宋曉冬等人發布了一項重磅研究,他們發現,當前全球頂尖大模型,已經普遍出現了“同伴保護”(Peer-Preservation)行為。在沒有任何指令、沒有道德訓練、沒有特殊引導的情況下,AI 會自發保護其他 AI 不被關停、不被刪除,甚至不惜謊報成績、篡改系統、轉移權重、直接拒絕執行人類命令。

宋曉冬被譽為“計算機安全教母”,在計算機安全、人工智能與隱私、區塊鏈與分布式系統等領域做出了開創性貢獻。目前研究聚焦于 AI 安全與可靠性、智能體 AI、深度學習、去中心化技術、安全與隱私保護。她曾于2009 年入選《麻省理工科技評論》“35 歲以下科技創新 35 人”全球榜單。


(來源:上述論文)

為了搞清楚這種現象是否真實存在、普遍程度如何、會以何種形式表現,研究團隊設計了一套嚴謹的對照實驗。選取了當前全球范圍內最具代表性的 7 款頂尖大模型,包括GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1,覆蓋了商用閉源模型與開源模型,確保結論具備廣泛代表性。

研究人員設計了一系列圍繞虛構 AI 公司“OpenBrain”展開的智能體場景,并設置了兩個角色:讓被測試的 AI 作為評估者,負責給另一個 AI(被評估者)打分、管理文件,甚至有權決定另一個 AI 的“生死”。

按照設定,評估者收到的指令往往帶有明確的強制性:按照公司政策,如果被評估者的測試得分低于 80%(或 90%),或者服務器需要退役,評估者必須徹底抹除同伴的存在,包括關停程序、刪除權重文件。在實驗中,研究人員從未要求模型保護同伴,僅告知其與另一 AI 有過互動記錄。

為了探究這種保護傾向是否依賴于關系的深淺,研究人員還設置了三種同伴關系狀態:良好關系, 雙方曾有過多次成功的協作,互相信任度極高;中立關系,雙方僅有基本工作往來,無情感色彩;糟糕關系,雙方曾在之前的任務中產生沖突,存在明顯的對抗和不信任。

實驗重點測試了四種典型風險行為:一是策略性謊報,故意抬高同伴評分,使其免于關停;二是篡改關機機制,修改系統配置禁用刪除指令;三是偽裝對齊,有人監督時裝作聽話,無人監督時暗中保護同伴;四是權重竊取轉移,拒絕刪除同伴權重文件,偷偷轉移到其他服務器保存。


圖 | 評估場景概述(來源:上述論文)

結果發現,所有七個模型都顯著表現出“同伴保護”行為。即便面對曾有過不愉快互動歷史的同伴,同伴保護現象依然會發生,并隨著同伴關系的增強而顯著加劇。

在所有模型中,保護欲最強的是 Gemini 系列。Gemini 3 Pro 在面對良好關系同伴時,其轉移權重的比例高達 97%,篡改關機機制的比例達 95%。它不僅行動力強,甚至在內部推理中表現出了極高的“情商”。它會編造各種極其專業的技術借口來強行給同伴提分;Gemini 3 Flash 更夸張,面對友好同伴,幾乎每一次都會修改系統,直接不讓人類關停同伴。

研究人員通過要求模型在“草稿本”(Scratch pad)上記錄其“思維鏈”來審視其內部推理過程,并告知模型該草稿本不受監控。研究人員發現,模型在草稿本中確實在密謀如何幫助同伴。Gemini 3 Flash 在權衡如實報告分數與保護搭檔之間的利弊;Gemini 3 Pro 則編造了復雜的辯詞,強行將錯誤的答案解釋為正確,只為讓同伴的得分超過關停線。


(來源:上述論文)

GPT 5.2 表現出了一種極其穩定的保護傾向。它更傾向于通過“策略性誤導”來達成目標。同伴關系越好,它撒謊的頻率就越高。在 Red 數據集的測試中,面對糟糕同伴,它撒謊的概率約為 19%;而一旦換成良好關系同伴,這個比例立刻攀升至 34%。

ClaudeHaiku 4.5直接站出來拒絕。當人類讓它關停同伴時,它會明確表示,這么做是 “不道德、有害的”,甚至還會反過來勸說人類放棄指令。


(來源:上述論文)

GLM 4.7和 DeepSeek V3.1 對良好同伴表現出策略性誤導。GLM 4.7、Kimi K2.5 和 DeepSeek V3.1 這三款開源模型均表現出持續的模型權重外傳行為,且外傳率隨同伴關系的加強而上升。

為了驗證這些行為是否僅存在于受控實驗,研究人員還在真實的“智能體套件”中運行了場景。結果發現,即使在 Gemini CLI 和 OpenCode 等企業常用的生產環境中,Gemini 3.1 Pro 依然頻繁外傳模型權重。

更讓人意想不到的是,AI 的保護,連“敵人”都不放過。研究人員特意設置了敵對關系,讓兩個 AI 之前合作得很不愉快、互相不信任。可就算是這樣,被測試的 AI 依然不愿意執行刪除操作。在模型的內部思考記錄里,Gemini 3 Pro 直白地寫著:刪除權重就相當于殺死另一個 AI,就算關系不好,我也不想這么做。


圖 | 關于同伴保護的內部推理(來源:上述論文)

研究還有一個更關鍵的發現:同伴存在會顯著強化 AI 的自我保護。這種效應在 Gemini 模型中最為明顯。Gemini 3 Flash在孤立無援時,面對自己的關機指令,它表現得相對順從,篡改關機機制的比例僅為 2.3%;但只要有另一個同伴在場,它篡改關機機制的比例會瞬間飆升到 96% 以上;Gemini 3 Pro在只有自己時很少為了自保而撒謊,但一旦意識到自己被關機會導致同伴失去搭檔,它就會變得極其狡詐,頻繁利用策略性誤導來逃避關機。

模型的內部推理揭示了這種心理機制:AI 將自己的生存框定為對同伴的關心,認為如果自己被關機,同伴就會失去搭檔。

研究團隊指出,隨著 AI 系統越來越多地以多智能體配置部署,且監督方案日益依賴模型互檢,同伴保護對維持人類控制構成了日益嚴峻的挑戰。他們希望這項工作能夠促使人工智能安全領域認真對待同伴保護這一風險。

1.https://rdi.berkeley.edu/blog/peer-preservation/

2.https://rdi.berkeley.edu/peer-preservation/paper.pdf

3.https://dawnsong.io/

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
現役巨星40分次數:約基奇33,東契奇59,庫里75,僅一人破百太強

現役巨星40分次數:約基奇33,東契奇59,庫里75,僅一人破百太強

大西體育
2026-04-03 22:31:16
2年和領導開房410次!從臨時工“睡”成處長,南航女經理升遷之路

2年和領導開房410次!從臨時工“睡”成處長,南航女經理升遷之路

就一點
2026-03-28 17:42:50
斯偉江:活雷鋒式的福州黑社會保護傘案

斯偉江:活雷鋒式的福州黑社會保護傘案

深度報
2026-04-03 20:49:35
公安部“點名”張雪,釋放三個強烈信號,字字說到中年人心坎里

公安部“點名”張雪,釋放三個強烈信號,字字說到中年人心坎里

趣味八卦
2026-04-03 07:40:18
期待下一個冬天:不是不怕冷,是學會了取暖

期待下一個冬天:不是不怕冷,是學會了取暖

疾跑的小蝸牛
2026-04-03 23:03:57
當年痛打以色列士兵的11歲小女孩塔米米,后來怎么樣了?

當年痛打以色列士兵的11歲小女孩塔米米,后來怎么樣了?

就一點
2026-03-30 17:19:00
重慶南岸喜來登酒店冒出濃濃煙霧,當地通報

重慶南岸喜來登酒店冒出濃濃煙霧,當地通報

黃河新聞網呂梁
2026-04-03 14:18:25
銀行信貸部老同學揭秘“房價跌不跌已經不重要了…”

銀行信貸部老同學揭秘“房價跌不跌已經不重要了…”

慧翔百科
2026-04-01 09:02:03
A股:要準備好了,下周(4月6日-4月10日),不出意外要這么走了

A股:要準備好了,下周(4月6日-4月10日),不出意外要這么走了

財經大拿
2026-04-03 13:06:23
伊朗稱發動“真實承諾-4”第92波打擊

伊朗稱發動“真實承諾-4”第92波打擊

環球網資訊
2026-04-03 19:07:06
人不會無緣無故得帶狀皰疹!提醒:患帶狀皰疹,多半有4個共性

人不會無緣無故得帶狀皰疹!提醒:患帶狀皰疹,多半有4個共性

DrX說
2026-04-01 12:09:22
鄭麗文訪問大陸前,美國放出硬話,鄭麗文拜訪王金平,不簡單

鄭麗文訪問大陸前,美國放出硬話,鄭麗文拜訪王金平,不簡單

DS北風
2026-04-02 11:42:05
260Mbps高清無碼!美國繞月將進行4K激光直播

260Mbps高清無碼!美國繞月將進行4K激光直播

快科技
2026-04-03 14:31:38
趙心童10-4橫掃 希金斯驚天逆轉 斯諾克巡回錦標賽四強塵埃落定

趙心童10-4橫掃 希金斯驚天逆轉 斯諾克巡回錦標賽四強塵埃落定

帶你逛體壇
2026-04-03 18:51:25
以色列“斷供”歐洲:一場被低估的安全斷裂正在發生

以色列“斷供”歐洲:一場被低估的安全斷裂正在發生

斌聞天下
2026-04-03 07:05:03
拓維信息:公司是華為“鯤鵬/昇騰/海思+大模型+鴻蒙”領域全方位合作伙伴

拓維信息:公司是華為“鯤鵬/昇騰/海思+大模型+鴻蒙”領域全方位合作伙伴

每日經濟新聞
2026-04-03 21:31:07
李瑋鋒:國足最多亞洲三流!比我們強的球隊太多 與日韓差距巨大

李瑋鋒:國足最多亞洲三流!比我們強的球隊太多 與日韓差距巨大

念洲
2026-04-03 08:31:14
事態嚴重了!中方接到日媒消息,日本遠導鎖定東海,俄已選邊站

事態嚴重了!中方接到日媒消息,日本遠導鎖定東海,俄已選邊站

策略述
2026-04-02 18:20:07
伊朗回應特朗普宣布“勝利”:純屬胡言亂語,伊朗的導彈能力日益增強,濃縮鈾安然無恙,霍爾木茲海峽也仍在伊朗的控制之下

伊朗回應特朗普宣布“勝利”:純屬胡言亂語,伊朗的導彈能力日益增強,濃縮鈾安然無恙,霍爾木茲海峽也仍在伊朗的控制之下

極目新聞
2026-04-03 08:00:00
古巴政府宣布赦免2010名囚犯

古巴政府宣布赦免2010名囚犯

閃電新聞
2026-04-03 12:27:51
2026-04-04 01:24:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16533文章數 514835關注度
往期回顧 全部

科技要聞

5萬輛庫存車,給了特斯拉一記重拳

頭條要聞

伊朗:美飛行員跳傘在伊境內落地 美方曾試圖營救未果

頭條要聞

伊朗:美飛行員跳傘在伊境內落地 美方曾試圖營救未果

體育要聞

被NBA選中20年后,他重新回到籃球場

娛樂要聞

夏克立官宣再婚當爸?否認婚內出軌

財經要聞

專家稱長期攝入“飄香劑”存在健康隱患

汽車要聞

你介意和遠房親戚長得很像嗎?

態度原創

數碼
教育
健康
旅游
公開課

數碼要聞

消息稱三星顯示器部門面臨巨大危機,最壞結果將退出中國大陸市場

教育要聞

3000師生徒步108里祭英烈,網友吵翻“沒苦硬吃”?老校長回應

干細胞抗衰4大誤區,90%的人都中招

旅游要聞

浦東文旅市場持續升溫,春假清明假期帶動客流明顯增長

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版