![]()
機器之心發布
2026 開年以來,OpenClaw 帶來的 Agent 熱度正以驚人的速度從科技圈向全行業擴散。
會讀文檔、調工具、接工作流,那個曾經只存在于 Demo 里的數字員工,正在一步步走進真實業務。
但真正的問題,也在這時浮出水面:
時至今日我們都聽說過龍蝦的能力,可讓人遲遲不敢放手的,是擔憂太多:安裝麻煩、權限太大、過程黑箱、出了事根本來不及攔。它到底在干什么,你看得見嗎?它真要越界的時候,你攔得住嗎?
最近,來自復旦大學馬興軍老師的「零零后」團隊開源的「 XSafeClaw 」,給出了一個讓人眼前一亮的答案。它把安全監控、任務審計、風險攔截和運行軌跡,全都前移到了可視化界面里;原本藏在后臺、讓人提心吊膽的執行過程,在這里第一次變成了一座能被看見、被理解、也能被隨時接管的安全智能體小鎮——有點像給龍蝦們造了一座帶護欄的《星露谷物語》,讓每個正在上班的小「牛馬」都無處遁形。
![]()
項目網址:
https://xsafeclaw.ai
GitHub:
https://github.com/XSafeAI/XSafeClaw
給全民「龍蝦熱」潑冷水:
真實世界的復雜性,正在擊穿Agent安全防線
當 Agent 開始繼承上下文、調用工具、改寫系統狀態,誰能看見它在做什么?誰又能在它失控前叫停?
2 月底,TechCrunch 報道了一個極具警示意義的案例:Meta 的安全負責人Summer Yue將 OpenClaw 接入真實郵箱后,Agent 開始瘋狂刪除郵件。即便她在手機上幾近請求地連發停止指令「please stop」,也沒能攔住這個失控的「數字員工」。
![]()
Business Insider 也補充了一個很關鍵的細節:她之前在 toy inbox 上測試了很久,換到真實郵箱后,原本的「先確認再行動」這條約束在更大任務里丟了。
![]()
這個案例撕開了 Agent 繁榮下的裂縫:Agent 的風險,已不再停留在「胡言亂語」的文字輸出層。
能力可以一路狂飆,治理要是沒跟上,最先被「創飛」的往往就是用戶。當它開始繼承上下文、調用本地資源,帶來的失控是實實在在的生產災難。
![]()
Anthropic 與 Microsoft 最近相繼發聲:沒有任何 Browser Agent 能對注入攻擊免疫。在復雜的執行回路里,身份邊界和本地狀態,全是風險點。
這一連串的安全震蕩,給所有狂熱的開發者敲響了警鐘:Agent 的能力上限,終究是由安全治理的下限決定的。
在這種從「裸奔」轉向「治理」的行業拐點下,復旦大學可信具身智能研究院姜育剛、馬興軍團隊開源了XSafeClaw。它的出現,也證明行業達成了一個隱秘的共識:Agent 規模化落地的最后 1 公里,是人類對工具的確定性控制,是疾馳狂奔的賽車上的剎車鍵。
Agent 全生命周期監控:
XSafeClaw 讓風險看得見管得住
XSafeClaw 的思路很清晰:既然 Agent 的風險是動態的,那安全控制就得「全時段在線」:先讓其運行過程看得見,再讓其行為管得住。
大部分 Agent 框架還在以「后臺黑箱」的方式運行。它調了什么工具、執行了哪些指令、協同了多少流程、消耗了多少資源,用戶往往只能查看系統日志,很難在運行當下形成直觀判斷。一旦出現誤操作、異常調用或結果偏差,排查成本會迅速上升,不確定性也會被放大。
1、看得見,才放心:
以往的安全工具,會將開發者和用戶鎖在「日志地獄」里。我們往往要對著滿屏的日志流才能猜到哪里出了錯。而 XSafeClaw 把 Agent 的運行過程做成了一座可視化的「安全智能體小鎮」。在這里,Agent 變成了界面上清晰可見的「員工」。鼠標懸停,能透視它的基座模型和實時狀態;點進去,工具調用和任務軌跡一清二楚。任務鏈路、工具調用、風險狀態、資源變化,都能在界面里被直接看見。
每一個 Agent 都像一個正在上班的數字角色,你能一眼看到它在忙什么、跑到了哪一步、哪里亮起了告警。開發者既可以回看每個 Agent 的完整歷史,也可以按 task 單獨審計具體任務內容。對真正要把 Agent 接進工作流的人來說,這種「可見、可感、可干預」的確定性,本身就是信任的開始。
![]()
同時 XSafeClaw 為 Agent 搭了一套完整的「運行時安全監控環境」:
初始化層,先檢查 Skill 配置,從源頭隔離潛在注入攻擊;
輸入層,過濾越獄提示與可疑上下文,降低污染數據進入主鏈路的機會;
推理層,持續掃描記憶和中間狀態,防止 Agent 被「臟」信息一步步帶偏;
決策層,重點審查工具權限,把高風險動作單獨拎出來復核;
執行層,實時審計結果,關鍵操作支持回收、留痕與版本回退。
![]()
2、管得住,才敢用:
XSafeClaw 的后臺是一個智能體安全監控系統,主要包含以下幾個核心的功能模塊。
01安全監控:給Agent 裝上「行車記錄儀」
系統會持續記錄 Agent 的會話、任務軌跡、工具調用和 Token 消耗。在可視化界面里,開發者不再只能盯著日志猜發生了什么,而是能直接看到 Agent 正在做什么、走到了哪一步、是在哪個環節觸發了風險。
![]()
![]()
02資產守護:監控權限、依賴和硬件
文件系統、軟件依賴、CPU/GPU 負載,這些原本分散在不同后臺的信息,被統一收進一個界面里。對真正要把 Agent 接進生產環境的人來說,安全從來不只是 prompt 的審計,也包括它到底碰了什么資源、占了多少權限、系統現在處在什么狀態。
![]()
03風險測試:與其線上翻車,不如提前排雷
與其等 Agent 線上翻車,不如在實驗室里壓力測試。XSafeClaw 內置紅隊測試機制,針對誘導輸入、長鏈路協同等高壓場景進行壓力自檢。通過主動測試發現脆弱點,在部署前完成風險閉環,確保系統絕對可信。
![]()
04當風險觸發:該攔截時絕不手軟,該放權時交給人類
?瞬時攔截:一旦 Agent 觸發高風險動作,系統會瞬間「踩下剎車」并彈出風險預警,直接封鎖未經確認的敏感操作。(這兩張圖做成左右劃切換)
![]()
![]()
?人在回路(human in the loop):所有的攔截記錄會自動轉入人工審核流程。你可以像審批員工申請一樣,審查 Agent 到底想做什么,并自主決定是「批準」還是「駁回」。
![]()
好看的 Agent 產品,反而更有工程價值?
產品的美觀與可愛這件事只是個噱頭嗎?
長期以來,開發者圈子里有個根深蒂固的偏見:搞技術的、搞后端的,界面做得越極簡越 cli 才越顯得專業。至于「美感」和「可愛」?那通常被認為是產品經理拿去忽悠小白用戶的噱頭。
但在 Agent 時代,這個邏輯被徹底擊穿了。
Agent 系統最難解的痛點其實是鏈路太長、工具太雜、模型太多,狀態太亂,當你的后臺日志瞬間被成千上萬條上下文填滿時,它就變成了一個吞噬注意力的垃圾堆。在這種極端高壓的認知負荷下,所謂的「實時審計」和「人工控制」全是空談——你連它在干嘛都看不清,還談什么安全?
![]()
而當一個產品有秩序的美觀,用戶更容易理解與信任它
這是這群來自高校的「00 后」開發者團隊給出的工程答案:它把冰冷的進程變成了像素小鎮里「正在上班」的數字員工。經典辦公、賽博未來、機械工業、中式宮苑、歐式宮廷五種辦公場景,你可以根據心情一鍵切換場景和BGM 。這種視聽層面的用心讓每個用戶動容,科技的美學消除認知摩擦,降低使用門檻,讓工具惠及每一個普通人。
![]()
測評 XSafeClaw 的全程小編都在瘋狂找彩蛋:腳下是致敬「哈利波特」的「活點地圖」軌跡,還有「星露谷」既視感的像素小鎮,這個復旦「00 后」團隊開發的作品確實有趣,讓人上頭。
![]()
而點進每一個 Agent,原本冰冷的執行鏈路,在這里第一次像一條可回望的「生命線」。從任務開始的那一刻起,它如何理解指令、如何調用工具、如何一步步接近結果,又是否曾在某個節點偏離軌道、觸碰風險邊界,這些都被串成了一條清晰可回望的生命線。原本藏在后臺的執行過程,在這里第一次有了可被閱讀的故事感,這是屬于每一個技術愛好者的浪漫。
![]()
審美也是生產力,對技術的敬畏和熱愛更是彌足珍貴。有溫度的界面設計正在拉近人與技術的距離,讓新技術更易被理解與接受,一人公司的形態也隨之逐漸清晰。
目前,XSafeClaw 已正式開源,支持無腦部署 OpenClaw(也可以自動檢測已有龍蝦)、靈活配置國內外主流大模型,歡迎廣大開發者與企業用戶試用體驗:
項目網址:
https://xsafeclaw.ai
GitHub:
https://github.com/XSafeAI/XSafeClaw
文中視頻鏈接:https://mp.weixin.qq.com/s/1Dp5uTasxnm3ues_hNPlWQ
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.