網易首頁 > 網易號 > 正文申請入駐

養蝦「不可能三角」:好用、好玩、安全,復旦這個00后團隊做到了！

2026-04-14 09:59:38　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

2026 開年以來，OpenClaw 帶來的 Agent 熱度正以驚人的速度從科技圈向全行業擴散。

會讀文檔、調工具、接工作流，那個曾經只存在于 Demo 里的數字員工，正在一步步走進真實業務。

但真正的問題，也在這時浮出水面：

時至今日我們都聽說過龍蝦的能力，可讓人遲遲不敢放手的，是擔憂太多：安裝麻煩、權限太大、過程黑箱、出了事根本來不及攔。它到底在干什么，你看得見嗎？它真要越界的時候，你攔得住嗎？

最近，來自復旦大學馬興軍老師的「零零后」團隊開源的「 XSafeClaw 」，給出了一個讓人眼前一亮的答案。它把安全監控、任務審計、風險攔截和運行軌跡，全都前移到了可視化界面里；原本藏在后臺、讓人提心吊膽的執行過程，在這里第一次變成了一座能被看見、被理解、也能被隨時接管的安全智能體小鎮——有點像給龍蝦們造了一座帶護欄的《星露谷物語》，讓每個正在上班的小「牛馬」都無處遁形。

項目網址：

https://xsafeclaw.ai

GitHub：

https://github.com/XSafeAI/XSafeClaw

給全民「龍蝦熱」潑冷水：

真實世界的復雜性，正在擊穿Agent安全防線

當 Agent 開始繼承上下文、調用工具、改寫系統狀態，誰能看見它在做什么？誰又能在它失控前叫停？

2 月底，TechCrunch 報道了一個極具警示意義的案例：Meta 的安全負責人Summer Yue將 OpenClaw 接入真實郵箱后，Agent 開始瘋狂刪除郵件。即便她在手機上幾近請求地連發停止指令「please stop」，也沒能攔住這個失控的「數字員工」。

Business Insider 也補充了一個很關鍵的細節：她之前在 toy inbox 上測試了很久，換到真實郵箱后，原本的「先確認再行動」這條約束在更大任務里丟了。

這個案例撕開了 Agent 繁榮下的裂縫：Agent 的風險，已不再停留在「胡言亂語」的文字輸出層。

能力可以一路狂飆，治理要是沒跟上，最先被「創飛」的往往就是用戶。當它開始繼承上下文、調用本地資源，帶來的失控是實實在在的生產災難。

Anthropic 與 Microsoft 最近相繼發聲：沒有任何 Browser Agent 能對注入攻擊免疫。在復雜的執行回路里，身份邊界和本地狀態，全是風險點。

這一連串的安全震蕩，給所有狂熱的開發者敲響了警鐘：Agent 的能力上限，終究是由安全治理的下限決定的。

在這種從「裸奔」轉向「治理」的行業拐點下，復旦大學可信具身智能研究院姜育剛、馬興軍團隊開源了XSafeClaw。它的出現，也證明行業達成了一個隱秘的共識：Agent 規模化落地的最后 1 公里，是人類對工具的確定性控制，是疾馳狂奔的賽車上的剎車鍵。

Agent 全生命周期監控：

XSafeClaw 讓風險看得見管得住

XSafeClaw 的思路很清晰：既然 Agent 的風險是動態的，那安全控制就得「全時段在線」：先讓其運行過程看得見，再讓其行為管得住。

大部分 Agent 框架還在以「后臺黑箱」的方式運行。它調了什么工具、執行了哪些指令、協同了多少流程、消耗了多少資源，用戶往往只能查看系統日志，很難在運行當下形成直觀判斷。一旦出現誤操作、異常調用或結果偏差，排查成本會迅速上升，不確定性也會被放大。

1、看得見，才放心：

以往的安全工具，會將開發者和用戶鎖在「日志地獄」里。我們往往要對著滿屏的日志流才能猜到哪里出了錯。而 XSafeClaw 把 Agent 的運行過程做成了一座可視化的「安全智能體小鎮」。在這里，Agent 變成了界面上清晰可見的「員工」。鼠標懸停，能透視它的基座模型和實時狀態；點進去，工具調用和任務軌跡一清二楚。任務鏈路、工具調用、風險狀態、資源變化，都能在界面里被直接看見。

每一個 Agent 都像一個正在上班的數字角色，你能一眼看到它在忙什么、跑到了哪一步、哪里亮起了告警。開發者既可以回看每個 Agent 的完整歷史，也可以按 task 單獨審計具體任務內容。對真正要把 Agent 接進工作流的人來說，這種「可見、可感、可干預」的確定性，本身就是信任的開始。

同時 XSafeClaw 為 Agent 搭了一套完整的「運行時安全監控環境」：

初始化層，先檢查 Skill 配置，從源頭隔離潛在注入攻擊；

輸入層，過濾越獄提示與可疑上下文，降低污染數據進入主鏈路的機會；

推理層，持續掃描記憶和中間狀態，防止 Agent 被「臟」信息一步步帶偏；

決策層，重點審查工具權限，把高風險動作單獨拎出來復核；

執行層，實時審計結果，關鍵操作支持回收、留痕與版本回退。

2、管得住，才敢用：

XSafeClaw 的后臺是一個智能體安全監控系統，主要包含以下幾個核心的功能模塊。

01安全監控：給Agent 裝上「行車記錄儀」

系統會持續記錄 Agent 的會話、任務軌跡、工具調用和 Token 消耗。在可視化界面里，開發者不再只能盯著日志猜發生了什么，而是能直接看到 Agent 正在做什么、走到了哪一步、是在哪個環節觸發了風險。

02資產守護：監控權限、依賴和硬件

文件系統、軟件依賴、CPU/GPU 負載，這些原本分散在不同后臺的信息，被統一收進一個界面里。對真正要把 Agent 接進生產環境的人來說，安全從來不只是 prompt 的審計，也包括它到底碰了什么資源、占了多少權限、系統現在處在什么狀態。

03風險測試：與其線上翻車，不如提前排雷

與其等 Agent 線上翻車，不如在實驗室里壓力測試。XSafeClaw 內置紅隊測試機制，針對誘導輸入、長鏈路協同等高壓場景進行壓力自檢。通過主動測試發現脆弱點，在部署前完成風險閉環，確保系統絕對可信。

04當風險觸發：該攔截時絕不手軟，該放權時交給人類

?瞬時攔截：一旦 Agent 觸發高風險動作，系統會瞬間「踩下剎車」并彈出風險預警，直接封鎖未經確認的敏感操作。（這兩張圖做成左右劃切換）

?人在回路（human in the loop）：所有的攔截記錄會自動轉入人工審核流程。你可以像審批員工申請一樣，審查 Agent 到底想做什么，并自主決定是「批準」還是「駁回」。

好看的 Agent 產品，反而更有工程價值？

產品的美觀與可愛這件事只是個噱頭嗎？

長期以來，開發者圈子里有個根深蒂固的偏見：搞技術的、搞后端的，界面做得越極簡越 cli 才越顯得專業。至于「美感」和「可愛」？那通常被認為是產品經理拿去忽悠小白用戶的噱頭。

但在 Agent 時代，這個邏輯被徹底擊穿了。

Agent 系統最難解的痛點其實是鏈路太長、工具太雜、模型太多，狀態太亂，當你的后臺日志瞬間被成千上萬條上下文填滿時，它就變成了一個吞噬注意力的垃圾堆。在這種極端高壓的認知負荷下，所謂的「實時審計」和「人工控制」全是空談——你連它在干嘛都看不清，還談什么安全？

而當一個產品有秩序的美觀，用戶更容易理解與信任它

這是這群來自高校的「00 后」開發者團隊給出的工程答案：它把冰冷的進程變成了像素小鎮里「正在上班」的數字員工。經典辦公、賽博未來、機械工業、中式宮苑、歐式宮廷五種辦公場景，你可以根據心情一鍵切換場景和BGM 。這種視聽層面的用心讓每個用戶動容，科技的美學消除認知摩擦，降低使用門檻，讓工具惠及每一個普通人。

測評 XSafeClaw 的全程小編都在瘋狂找彩蛋：腳下是致敬「哈利波特」的「活點地圖」軌跡，還有「星露谷」既視感的像素小鎮，這個復旦「00 后」團隊開發的作品確實有趣，讓人上頭。

而點進每一個 Agent，原本冰冷的執行鏈路，在這里第一次像一條可回望的「生命線」。從任務開始的那一刻起，它如何理解指令、如何調用工具、如何一步步接近結果，又是否曾在某個節點偏離軌道、觸碰風險邊界，這些都被串成了一條清晰可回望的生命線。原本藏在后臺的執行過程，在這里第一次有了可被閱讀的故事感，這是屬于每一個技術愛好者的浪漫。

審美也是生產力，對技術的敬畏和熱愛更是彌足珍貴。有溫度的界面設計正在拉近人與技術的距離，讓新技術更易被理解與接受，一人公司的形態也隨之逐漸清晰。

目前，XSafeClaw 已正式開源，支持無腦部署 OpenClaw（也可以自動檢測已有龍蝦）、靈活配置國內外主流大模型，歡迎廣大開發者與企業用戶試用體驗：

項目網址：

https://xsafeclaw.ai

GitHub：

https://github.com/XSafeAI/XSafeClaw

文中視頻鏈接：https://mp.weixin.qq.com/s/1Dp5uTasxnm3ues_hNPlWQ

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.