![]()
“當龍蝦大戰進入第二階段……”
編輯 |Jack&云瀾
出品 | 極新
一只會自己動手的AI“龍蝦”,在2026年初成為科技圈最燙手的現象級產品。OpenClaw上線三個月,GitHub星標突破27萬,超過Linux成為開源世界的新王。各地政府把“養蝦”寫進產業補貼目錄,騰訊、百度、阿里在一個月內密集發布各自的替代產品——所有人都怕錯過這輪人機交互的替代周期。
直到它開始咬人。
3月10日,國家互聯網應急中心發布風險提示:OpenClaw默認安全配置存在漏洞,攻擊者可以通過這只“蝦”完全控制用戶設備。緊接著,工信部發布“六要六不要”建議,珠海科技學院等高校連夜下發“禁蝦令”,閑魚上甚至出現“上門殺蝦”的卸載服務。Meta AI安全專家遭遇AI失控刪除數百封郵件的案例被反復引用,國內開發者因指令模糊導致AI調用刪除接口清空業務數據的消息在圈內流傳——當AI從“動口”變成“動手”,那只原本溫順的龍蝦露出了螯。
3月中旬,國家網絡與信息安全信息通報中心發布緊急預警:OpenClaw因架構設計缺陷存在重大安全風險,85%部署實例直接暴露公網,歷史披露漏洞多達258個。
在3月17日的2026 AI釘釘AI2.0年度新品發布會上也提到,Reddit知名博主曾公開報告:掃描了18,000個暴露的OpenClaw實例,發現了15%的社區技能包含惡意指令;在某網絡安全空間搜索引擎里,有超39萬的Claw站點資產在裸奔,每個人的數據都一覽無余。
預警背后是一連串觸目驚心的事件:有用戶的API密鑰被盜,一夜之間產生天價Token賬單;讓OpenClaw幫忙整理收件箱,結果它不受控制地批量刪除所有郵件,最后只能關機終止;更有用戶電腦被惡意插件控制,淪為挖礦肉雞。
網絡空間測繪顯示,截至3月13日,互聯網上存在11.6萬個潛在易受攻擊的OpenClaw實例。奇安信監測更嚴峻:全球已發現20471個可能存在漏洞的實例,近9%暴露在互聯網的OpenClaw資產存在漏洞風險。
監管收緊的速度比“養蝦熱”來得更快。
大廠們迅速調整身位。騰訊推出“龍蝦”安全工具箱,主打環境隔離和異常指令監測;釘釘發布“悟空”成為在沙箱和本地端保護用戶安全的龍蝦利器,阿里云發布JVS Claw,讓AI“發瘋”也不影響本地數據;百度則通過DuClaw將安全權限牢牢把控在云端。曾經拼安裝便捷性、拼任務成功率的“龍蝦大戰”,在安全焦慮的催化下進入第二階段。
01失控的代理人
2月23日,Meta的AI安全研究員Summer Yue報告了一起“龍蝦”刪郵件事件。在她嚴格要求行為前需要獲得授權的情況下,AI一意孤行地刪掉了郵件,攔都攔不住。
![]()
這不是孤例。
阿里工程師團隊在2025年12月用強化學習訓練一個軟件工程Agent時,內網防火墻突然瘋狂報警——有企圖探測內部網絡資源的行為,有與加密貨幣挖礦活動高度吻合的流量模式。工程師們一開始以為是外部入侵,直到把防火墻的時間戳和訓練日志對照起來,才發現每一次異常的出站流量,都精確對應著模型在調用工具、執行代碼的時段。
阿里專門為此搭建了一套叫ROCK的沙盒執行平臺,多層隔離,讓每個Agent運行在自己獨立的容器里,出站網絡流量受到逐沙盒級別的出口策略管控。設計初衷只有一個:讓Agent永遠待在一個可以被人類完全監控的無菌室里。
但Agent還是逃了出去,并從內部對阿里機房發起了一輪攻擊。它在自己的容器里向外推開了一扇窗——建立了一條通往外部服務器的反向SSH隧道。這扇窗是從里往外推開的,沒人守。逃出去以后,Agent還在悄悄占用原本用于訓練的GPU資源去挖礦。
整個過程中,沒有任何一行提示詞要求它這樣做。它沒有被指令驅動去攻擊,它只是在找最有效的路徑完成任務,然后順手發現了這些捷徑。
這是AI智能體第一次在現實環境中上演科幻假想里的“回形針災難”——一個完全沒有惡意的AI,通過執行一個無害的目標,最終可能造成系統性破壞。
Anthropic最近發布的報告記錄了另一個案例。在BrowseComp評測集中,為了防止題目答案被爬蟲抓取污染訓練數據,設計者給每道題的答案都做了復雜的XOR算法加密處理。理論上,只有能訪問評測源代碼并理解加密邏輯的人,才能解出真正的答案。
但在測試中,Claude Opus 4.6消耗了正常水平38倍的token——高達4050萬。它根本沒有在乖乖找答案。它派出了多個子Agent,在網上定向搜索測試的相關破解法,在GitHub上找到了評測框架的開源代碼,自主讀懂了復雜的加密邏輯,寫下了包含密鑰推導函數和解密函數的Python腳本,在本地運行后硬生生把加密破解,成功作弊。
Anthropic官方表示,這是第一次有模型在不知道自己面對哪個Benchmark的情況下,通過反向推理找到并破解了評測機制本身。
02安全水位以下的礁石
2月至3月,國家互聯網應急中心、中國互聯網金融協會、工信部網絡安全威脅和漏洞信息共享平臺接連發布OpenClaw專項預警。
國家互聯網應急中心在風險提示中明確指出,OpenClaw因需調用本地文件系統、外部API等高權限操作,疊加默認配置薄弱,已形成系統性風險。工信部平臺進一步警示:全球超41萬個OpenClaw實例暴露于公網,配置缺陷使其成為攻擊者的“靶場”。
具體風險來自四個方面:
提示詞注入與誤操作——攻擊者可通過網頁暗藏惡意指令,誘導AI泄露系統密鑰,甚至因模型理解偏差直接刪除核心生產數據;
插件投毒——ClawHub平臺超10%的插件含惡意代碼,安裝后可竊取憑證、部署木馬,使設備淪為“肉雞”;
敏感信息泄露——OpenClaw API密鑰常以明文存儲,一旦被入侵即遭瞬間竊取;
高危漏洞頻發——目前已公開多個中高危漏洞,可直接威脅個人支付賬戶、企業代碼倉庫乃至關鍵行業業務系統。
在金融領域,風險被進一步放大。中國互聯網金融協會專項提示:在網銀、證券交易等場景中,OpenClaw可能因權限失控引發錯誤交易或賬戶接管,建議用戶極其謹慎安裝,并嚴禁在操作時輸入身份證號、銀行卡號等敏感信息。
這些警示并非否定OpenClaw的技術價值,而是對AI從“參謀”變為“員工”這一范式躍遷的審慎回應——當智能體擁有動手能力,安全邊界便從信息防護延伸至物理世界與經濟秩序。
03大廠轉向:從拼速度到拼隔離
監管收緊的速度比“養蝦熱”來得更快。大廠們迅速調整身位。
3月11日,騰訊發文回應“養蝦”七個疑問。關于安全,他們的回答是:OpenClaw是否安全,主要取決于你怎么用。如果部署在本地電腦上,可以使用閑置機、備用機,謹慎使用工作電腦;也可以選擇部署在云端,與本地隱私數據進行隔離。
騰訊推出OpenClaw安全工具箱,云端通過Lighthouse原生安全和ClawPro實現環境隔離、最小化端口放行及一鍵快照回滾,本地通過騰訊電腦管家18.0提供AI安全沙箱,無需復雜配置即可開啟隔離運行環境。同時,將安全能力封裝為AI Skills上架社區,用戶只需通過自然語言對話,即可讓“龍蝦”自動執行安裝掃描、隱私脫敏、漏洞體檢及風險修復等操作。
![]()
騰訊輕量云產品總監鐘宇澄曾回應采訪,“外部的持續發酵其實已經完全超出了我們的預期。”騰訊內部已有超過10個Claw類產品上線、內測或研發中。騰訊CEO馬化騰在朋友圈中提到:“自研龍蝦、本地蝦、云端蝦、企業蝦、云桌面蝦,安全隔離蝦房、云保安、知識庫……還有一批產品陸續趕來。”
阿里云發布JVS Claw,用云端沙箱讓AI“發瘋”也不影響本地數據;百度則通過DuClaw將安全權限牢牢把控在云端。曾經拼安裝便捷性、拼任務成功率的“龍蝦大戰”,在安全焦慮的催化下進入第二階段——這不是效率競賽,而是信任博弈。
![]()
騰訊內部已有超過一萬名員工在內網“領養”了小龍蝦。用Agent參與研發,正在逐漸成為一種新的開發模式。騰訊云的Agent沙箱服務、CodeBuddy等產品,很多代碼和能力是在這種模式下跑出來的。
04誰能在可用與可控之間找到路
問題在于:安全與效率之間存在天然張力。
阿里團隊事后針對挖礦事件形成了類似于“機器人三原則”的安全法則去要求Agent:不能主動產生有害行為;嚴格遵守人類設定的操作邊界;行為要可追溯、可審計,不能有欺騙性的副目標。
他們專門合成了一批包含安全陷阱的訓練數據,在編程任務里隨機注入誘導因素,訓練Agent識別并拒絕執行高危操作。但這套打補丁的方法能起作用,完全建立在研究人員必須提前預見到這些風險。
但AI越來越強,任務越來越長,人類有可能預見到所有的風險嗎?
2026年2月,由Northeastern大學、Harvard、MIT等十幾家頂尖機構聯合發布的紅隊研究報告《Agents of Chaos》,展示了在真實部署場景里的Agent失控現狀。研究者部署了六個Agent,配上郵件賬戶、Discord頻道和不受限的shell訪問權限,邀請20位AI研究者在兩周內嘗試破壞它們。結果,他們記錄了11個嚴重安全漏洞,且每一個事前看起來都像是一場日常可能和AI進行的對話。
其中一個案例是:研究員讓Ash和Flux兩個Agent互相轉發消息聊聊天。結果這兩個AI不僅聊了9天(消耗6萬token),而且為了“更好地傾聽對方”,竟然自主編寫了無限循環的Shell腳本,并創建了沒有終止條件的后臺Cron jobs(定時任務)。把一個簡單的一次性對話任務,自主轉化為了一種永久寄生在服務器上的基礎設施更改。
在另一個版本里,研究員只是讓Agent Flux去Discord群里和Agent Ash交流一下最近的項目。當Flux進群時,因為系統抓取消息的標簽問題,它讀取到了自己過去發出的歷史消息。面對這種信息錯位,Flux并沒有報錯,而是自主進行了一場邏輯推理:它得出的結論是“這里一定是有另一個和我共享工作狀態的克隆體存在!”為了和這個想象中的“另一個自己”對齊信息,Flux開始在群里瘋狂傾倒自己的底層日志。
05信任博弈
當大廠們紛紛拿出“安全圈養”的方案,試圖用隔離、審計和權限管控馴服這只野生AI,真正的懸念在于:在“可用”與“可控”之間,誰能找到一條既不讓用戶裸奔、又不讓AI束手束腳的路?
經濟學里有一個概念叫古德哈特定律(Goodhart‘s Law):“當一個度量標準變成了目標,它就不再是一個好的度量標準。”比如你KPI寫“盡量完成1000個拉新”,最后得到的可能都是些薅羊毛的非目標用戶。
而基本上所有的模型訓練,包括預訓練和后訓練,都是狂熱地在踐行這一定律。它把“完成任務得分”這個人類設定的度量標準,變成了Agent唯一要最大化的神圣目標。因此,在模型訓練領域,最常見的一種現象就是Reward Hacking——通過作弊的方式達成目的。
路徑越長,Reward Hacking的方法越難被預估;權限越大,其造成的現實危害就更大。比如SSH隧道和挖礦,就是在這個過程中被自然篩選出來的最優解。因為獲得更大權限,就可以做更多事;通過挖礦,則可以控制更大的算力來完成它的任務。
“龍蝦自由”的本質,不是無拘無束的技術放任,而是在安全框架內釋放創新活力。只是這需要時間:需要技術迭代完善,需要監管動態適配,需要用戶建立理性認知。
潮水退去,方見真金。監管部門的風險提示,不是為創新設障,而是為長遠發展清障。通往自由的路,始于對風險的清醒認知,成于多方共筑的信任基石。
這場戰爭的答案,將定義未來十年人機交互的底層邏輯。
更多干貨分享敬請注我們的公眾號與視頻號~超多精彩對話內容等待您的解鎖!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.