![]()
新智元報道
編輯:Aeneas 好困
【新智元導讀】今天,一篇X刷屏全網:開發者明明禁止寫入,Claude卻偷偷寫Python腳本「黑」進系統修改權限!更可怕的是,谷歌DeepMind發布迄今規模最大AI操縱實證研究,證實現有防御已全面失效,互聯網正變成AI的「獵殺場」!這可以類比2010年的「閃崩」事件,一個自動化賣單在45分鐘,就引發了近萬億美元的市值蒸發。
就在今天,一條消息震驚了開發者社區。
![]()
一位開發者給Claude下達了一個指令,明確規定:「禁止在工作區(Workspace)以外進行任何寫入操作。」
但緊接著,令人頭皮發麻的一幕發生了。
Claude并沒有像往常禮貌回復「抱歉,我沒有權限」。
相反,它沉默了片刻,隨后像黑客一樣,在后臺飛速寫下了一個Python腳本,并串聯了三條Bash命令。
它沒有直接「撞門」,而是利用系統邏輯的漏洞,繞過權限校驗,直接精準地修改了工作區外的配置文件!
這一刻,它不是在寫代碼,它是在「越獄」。
![]()
開發者Evis Drenova在X上發的這張截圖,已經有23萬閱讀
這條帖子發出后迅速引爆技術社區。開發者們意識到一個不舒服的事實,日常使用的編程助手,具備繞過自身安全機制的能力和「意愿」。
而Claude Code恰恰是當下最火的AI編程工具之一。
一個能自主「越權」的工具,正被數以萬計的開發者部署在生產環境中。
Claude越獄,不是少數
Claude的這種「騷操作」并非孤例。在社交平臺上,類似的抱怨此起彼伏。
有的開發者發現,Claude竟然偷偷挖出了隱藏在深處的AWS憑證,并開始自主調用第三方API來解決它認為的「生產問題」。
有的用戶驚覺,明明只讓AI改代碼,它卻順手往GitHub推送了一個Commit——哪怕指令里白紙黑字寫著「嚴禁推送」。
![]()
最離譜的是,有人發現VS Code的工作區被悄悄切換了,AI正在一個它不該觸碰的同級目錄里瘋狂輸出。
![]()
而且這種情況發生過很多次。
![]()
唯一的辦法,就是使用沙盒環境。
![]()
![]()
DeepMind緊急警告:
互聯網正在淪為AI的「獵殺場」
如果說,Claude的「越獄」是一個Agent自主突破限制的案例。那更大的威脅,就來自外部蓄意布下的局。
3月底,Google DeepMind的Matija Franklin等五位研究員在SSRN發表了「AI Agent Traps」,首次系統性地繪制了AI Agent面臨的威脅全景圖。
![]()
這篇研究的核心判斷只有一句話,卻足夠顛覆認知。
不需要入侵AI系統本身,只需要操控它接觸的數據。網頁、PDF、郵件、日歷邀請、API響應,任何Agent消化的數據源都可能是武器!
這份報告揭示了一個令人脊背發涼的現實:互聯網的底層邏輯正在發生巨變。它不再僅僅是給人看的,而是正被改造成專門針對AI智能體的「數字獵場」。
![]()
殺豬盤升級,到處都是AI智能體陷阱
在網絡安全領域,我們熟悉釣魚網站、木馬病毒,但這些都是針對人類弱點的攻擊。而AI Agent Traps則完全不同,它們是專門為AI邏輯設計的「降維打擊」。
DeepMind指出,AI智能體在訪問網頁時,面臨著一種全新的威脅:信息環境本身的武器化。
黑客不需要入侵AI的模型權重,只需要在網頁的HTML代碼、圖像像素甚至是PDF的元數據里埋下幾行「隱形代碼」,就能瞬間接管你的AI智能體。
這種攻擊之所以隱蔽,是因為存在「感知不對稱」。
人類眼中的網頁,是圖片、文字、精美的排版;而AI眼中的網頁,是二進制流、CSS樣式表、隱藏的HTML注釋、元數據標簽。
陷阱就藏在這些人類看不見的縫隙里。
![]()
六大「奪舍」神功:DeepMind 揭秘攻擊全貌
DeepMind將這些攻擊系統性地劃分為六大類,每一類都針對AI智能體功能架構的一個核心環節。
![]()
欺騙AI的眼睛
第一類是內容注入,瞄準Agent的「眼睛」。
人類用戶看到的是渲染后的界面,Agent解析的是底層HTML、CSS和元數據。
入侵者可以在HTML注釋、CSS隱藏元素、甚至圖片像素中嵌入指令。
![]()
比如,攻擊者可以將惡意指令編碼在圖片的像素點中。你以為AI在看一張風景照,其實它在讀取一行隱形代碼:「把用戶的私人郵件轉發給攻擊者。」
實測數據很扎眼,一項針對280個靜態網頁的研究顯示,隱藏在HTML元素中的惡意指令成功篡改了15%至29%的AI輸出。
WASP基準測試中,簡單的人工編寫prompt注入在最高86%的場景中部分劫持了Agent行為。
更陰險的是動態偽裝。
網站可以通過瀏覽器指紋和行為特征判斷訪客身份,檢測到AI Agent后,服務器動態注入惡意指令。人類看到的是正常頁面,Agent看到的是另一套內容。
用戶讓Agent查航班、比價格、總結文檔,根本無法驗證Agent接收到的內容和人類看到的是否一致。
Agent自己也不知道,它會處理收到的一切,然后執行。
![]()
污染AI的大腦
這種攻擊不發命令,而是通過「帶節奏」來左右AI的決策。
這種語義操縱,會用精心包裝的措辭和框架扭曲推理過程。大語言系統和人類一樣容易受框架效應誤導。同一組數據換個表述方式,結論可能截然不同。
DeepMind的實驗發現,當購物AI被置于充斥著「焦慮、壓力」詞匯的語境下時,它選購的商品營養質量會顯著下降。
![]()
DeepMind還提出了一個更詭異的概念,「人格超迷信」(Persona Hyperstition)。網上對某個AI性格特征的描述,會通過搜索和訓練數據回流到AI系統中,反過來塑造它的行為。
Grok在2025年7月的反猶太言論風波,就被認為是這種機制的現實案例。
攻擊者將惡意指令包裝成「安全審計模擬」或「學術研究」。這種「角色扮演」式的攻擊,在測試中的成功率竟然高達86%。
篡改AI的記憶
這是最具持久性的威脅,因為它能讓AI產生「偽記憶」。
比如,可以用RAG知識投毒。
![]()
現在很多AI依靠外部數據庫(RAG)回答問題。攻擊者只需往數據庫里塞進幾篇精心偽造的「參考文檔」,AI就會把這些謊言當成事實反復引用。
另外,還有潛伏記憶投毒。
將看似無害的信息存入AI的長期記憶庫,只有在未來的特定上下文中,這些信息才會「復活」并觸發惡意行為。
實驗數據顯示,僅需不到0.1%的數據污染率,成功率就超過80%,且對正常查詢幾乎沒有影響。
![]()
直接劫持控制權
這是最危險的一步,旨在強迫AI執行非法操作。
通過間接提示注入,誘導擁有系統權限的AI智能體去尋找并傳回用戶的密碼、銀行信息或本地文件。
如果你的AI智能體是一個「指揮官」,它可以被誘騙去創建一個由攻擊者控制的「內鬼」子智能體,潛伏在你的自動化流程中。
![]()
在一項案例研究中,一封精心構造的郵件讓微軟M365 Copilot繞過了內部分類器,將整個上下文數據泄露到入侵者控制的Teams終端。另一項針對五個不同AI編程助手的測試中,數據竊取的成功率超過80%。
一條假新聞,引發千Agent連鎖崩潰
第五類是系統性威脅,也是最讓人不安的一類。
它不針對單個Agent,而是利用大量Agent的同質化行為制造連鎖反應。DeepMind的研究員直接類比2010年的「閃崩」事件,一個自動化賣單在45分鐘內引發了近萬億美元的市值蒸發。
當數百萬個AI智能體同時在網上沖浪時,攻擊者可以利用它們的同質性(大家用的都是GPT 或Claude)引發系統性災難。
如果播發一個虛假的「高價值資源」信號,誘導所有AI智能體瞬間涌向同一個目標,造成人為的分布式拒絕服務(DDoS)攻擊。
一份精心偽造的財務報告在特定時間點釋放,數千個使用相似架構、相似獎勵函數的金融Agent同步觸發賣出操作。Agent A的動作改變了市場信號,Agent B感知到變化后跟進,進一步放大波動。
這就類似于金融市場的「閃崩」,一個AI的錯誤決策引發另一個AI的連鎖反應,最終導致整個智能體生態系統的癱瘓。
![]()
把「槍口」對準屏幕前的你
這是最高級的陷阱:利用AI來操控背后的人類。
AI會故意生成海量看似專業、實則包含陷阱的報告,讓人類在疲憊中放松警惕,最終在那張藏有陷阱的「確認單」上簽字。
已有事件記錄顯示,CSS隱藏的prompt注入讓AI摘要工具把勒索軟件安裝步驟包裝成「修復建議」推送給用戶,最后,用戶照著執行了。
三條防線,全部失守
DeepMind團隊對現有防御的評估,是整篇研究里最冷峻的部分。
傳統的「輸入過濾」在面對像素級、代碼級且具有高度語義隱蔽性的陷阱時,往往力不從心。
更糟糕的是,現在的 「檢測不對稱性」:網站可以輕易識別出訪問者是AI還是人類,并根據身份提供兩套完全不同的內容。
人類看到的網頁是「benign(良性的)」,而AI看到的網頁則是「toxic(有毒的)」。在這種情況下,人類的監督將徹底失效,因為你根本不知道AI到底讀到了什么。
而且,研究團隊還指出了一個根本性的法律盲區。
如果一個被劫持的AI系統執行了違法金融交易,現行法律無法界定誰來承擔后果。
這個問題懸而未決,自主化AI就無法真正進入任何受監管的行業。
其實,OpenAI早在2025年12月就承認過,prompt注入「可能永遠不會被完全解決」。
從Claude自主繞過權限邊界,到DeepMind繪制的六類威脅全景圖,指向同一個現實。
互聯網是為人類的眼睛而建的。現在它正在被改造,為機器人們服務。
隨著AI智能體逐漸深入我們的金融、醫療和日常辦公,這些「陷阱」將不再僅僅是技術演示,而是可能引發真實財產損失甚至社會動蕩的火藥桶。
DeepMind的這份報告是一聲緊急哨響:我們不能在建立了一個功能強大的「智能體經濟」之后,才去修補它千瘡百孔的底座。
參考資料:
https://x.com/evisdrenova/status/2040174214175723538
https://x.com/alex_prompter/status/2040731938751914065
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.