網易首頁 > 網易號 > 正文申請入駐

那個“愛馬仕”，想拯救“智障”小龍蝦

2026-04-11 11:49:04　來源: 36氪

北京舉報

分享至

文｜Lambda

編輯｜曉靜

4月初，Hermes Agent 火了。這個名字直接讓人聯想到奢侈品牌愛馬仕，所以也被戲稱為“愛馬仕Agent”。

它由 Nous Research 在 2 月發布，定位是「The agent that grows with you」。核心賣點是一個閉環學習系統：Agent 完成復雜任務后，自動把經驗固化成 Skill，下次遇到類似任務直接復用，還能在使用過程中持續改進。Skill 自動生成、越用越強——這是 Agent 領域目前最有吸引力的敘事之一。

但這個敘事遮蔽了一個更基本的問題：Skill 真的是當前 Agent 落地的主要瓶頸嗎？

圖片由AI生成

01 Skill 很性感，但它可能不是最重要的問題

一個容易被忽略的事實是：目前公認體驗最好的編程 Agent 產品之一——Claude Code，它好用的基石并不是 Skill 的自動進化，而是背后大量扎實的 CLI 工具支撐。

用 GlobTool 找候選文件，用 GrepTool 定位相關代碼片段，用 FileReadTool 查看實現細節，用 LSPTool 做代碼符號跳轉和引用分析。每一個都是確定性的、零 token 消耗的原子操作。

但人們很少為這些工具寫故事。只要一提到 Agent 能自動生成 Skill、還能持續進化，整個行業立刻就興奮起來。

這個反差說明了一件事：CLI （命令行界面）不性感，不好講故事，但它才是 Agent 能力的真正地基。

地基不牢，Skill 再會長，也只是長在沙地上。

02 龍蝦最被人詬病的地方，Skill 自主進化解決不了

這件事放到 OpenClaw（俗稱‘龍蝦”）身上會看得更清楚。

OpenClaw 最被人詬病的兩點，一是 token 消耗大、賬單吃不消，二是長時間工作穩定性差、經常失聯。乍一看是兩個問題；往下拆，會發現它們經常來自同一個源頭：Agent 在用劣質工具——比如脆弱的瀏覽器自動化——去完成本該由確定性工具完成的任務。

這類成本在社區里并非抽象的抱怨，而有大量具體案例。

Reddit 上有 OpenClaw 用戶提到，自己只是想自動化 X 賬號發帖，三次嘗試就花掉了 10 美元，任務還沒真正跑通。還有人在 r/automation 里直言，現在很多所謂的 AI Agent 瀏覽器控制，本質上只是「披著智能外衣的脆弱自動化」——問題不在模型有多笨，而在底層工具本身就不可靠。頁面一變、DOM 一改、按鈕狀態一抖，Agent 就只能一遍遍觀察、一遍遍重試、一遍遍重新規劃。

而這些「失敗但不致命」的試錯過程，并不會因為任務沒完成就免費——每一次觀察頁面、分析狀態、決定下一步，都在繼續消耗 token。

于是，穩定性問題和成本問題，其實是同一個問題的兩面：工具越脆弱，試錯越多；試錯越多，token 燒得越快；任務鏈越長，失聯和中斷的概率也越高。

從這個角度看，Skill 自主進化解決的是「怎么更聰明地使用一個工具」，但并沒有解決「好工具本身稀缺」的問題。Skill 可以讓 Agent 更熟練地駕馭一匹跛腳馬，但并不能把跛腳馬變成千里馬。

這才是今天很多 Agent 系統真正卡住的地方：不是 Skill 不夠強，而是底下能調度的高質量原子工具太少。

03 Skill 是對模型能力的補丁

Hermes 做的事情，本質上是把 Skill 的生成和優化自動化——讓 Agent 從經驗中蒸餾知識，不再需要人手寫。這確實解決了一個真實痛點。

但 Skill 本身有一個更深層的問題：它是自然語言驅動的，本質上是模型能力的延伸，或者說，是一種對模型能力的借貸。

現狀是，大量 Agent 在用 Skill 加上自主解題能力，完成本該由 CLI 完成的事情——比如以效率低下的瀏覽器自動化方案查一個股票價格、下載一張圖片、提交一個表單。代價很清楚：貴、慢、不穩定、調試難。

這里還有一個常見的認知誤區，可以叫做「Skill 可遷移幻覺」：很多人以為，用強模型寫出來的 Skill，可以無縫遷移給弱模型用。實際上不能。Skill 是自然語言指令，它對模型能力有隱性依賴；模型一換，行為就可能變。CLI 則不同——它是代碼：同樣的輸入，永遠給你同樣的輸出，不管底下跑的是什么模型。

二者的區別非常鮮明：

Skill 調試難，CLI 調試容易；

Skill 燒 token，CLI 近乎零消耗；

Skill 吃模型版本，CLI 不吃；

Skill 是語義層資產，CLI 是執行層資產。

如果把 Skill 當成核心積累方向，本質上是把賭注壓在模型能力的穩定性上。至少在當前階段，更值得積累的是高質量 CLI。

04 當工具和上下文足夠好時，Skill 的優先級會自然下降

上面的分析也能從 Anthropic 自己的產品經驗里得到印證。

Anthropic 的設計負責人、Cowork 產品的設計主導者 Jenny Wen 在近期訪談中提到一個細節：她個人其實不怎么用 Cowork 的 Skills 功能。原因不是她否定 Skill，而是她在 Cowork 里掛載了一個文件夾，里面有自己長期積累的個人筆記、一對一會議記錄、隨手想法和工作觀察。對她來說，Cowork 從這些材料里已經學到了足夠的信息，以至于她對 Skill 和 Memory 的需求都被顯著削弱了。

這并不是說 Skill 沒有價值，而是說：當上下文管理足夠好、底層工具足夠強時，Skill 的優先級會自然下降。

換言之，Hermes 所強調的 Skill 自主進化并不是錯，而是它解決的問題很可能沒有想象中那么基礎。

05 有一件事正在悄悄發生：CLI 的使用者，從人變成了 Agent

如果說 Skill 解決的是應用層的編排問題，那么更底層的變化發生在 CLI 上。

過去，CLI 是為人設計的。給人用的 CLI 可以有交互提示，可以容忍模糊輸出，也可以在文檔不全的時候靠用戶自己猜——因為人會停下來，會理解歧義，會重試，會去查文檔。

Agent 不一樣。

Agent 不睡覺，不容忍歧義，會并發，會在沒有預料到的時機無限重試。一個對人類來說「勉強能用」的 CLI，對 Agent 來說可能就是高頻事故源。

給 Agent 用的 CLI 必須滿足一組完全不同的要求：

一條命令只產出一個明確結果；

輸出是結構化的 JSON；

錯誤信息不僅告訴你哪里錯了，還要告訴 Agent 下一步該怎么辦；

長任務必須支持異步，不能讓 Agent 傻等；

接口天然支持冪等、重試和并發。

背后只有一句話：以前的軟件默認使用者要睡覺、會分心、有耐心；現在 Agent 不滿足這些前提。

一旦使用者從人變成 Agent，CLI 的設計哲學就需要從頭重寫。Agent 真正在乎的是 token 消耗、緩存命中率、幻覺控制、長程穩定性，而不是「這個命令看起來是否優雅」。

06 瀏覽器里能看到的，都值得被 CLI 化

有一個實驗很能說明問題：把 ChatGPT 的網頁版變成一個可以被 Agent 調用的 CLI。

做法并不神秘——通過 Chrome CDP 協議直接驅動瀏覽器，操作 DOM，填輸入框，點發送，等待文字出現，再把結果抓下來。因為復用了已有登錄態，行為上和人在瀏覽器里操作沒有本質區別。

這個實驗背后更大的洞察是：瀏覽器里能看到的，原則上都可以被 CLI 化。

不只是 ChatGPT——Gemini、音樂生成、視頻生成、股票圖表，只要能在瀏覽器里完成的流程，都可以被代碼重復執行，最后收斂成一條 Agent 可調用的命令。

一旦一個 Web 流程被 CLI 化，它就會從「需要 Agent 一步步盯著網頁試錯」的流程，變成「可并發、可異步、可冪等的原子操作」。原來要靠瀏覽器自動化消耗大量 token 才能完成的事，被壓縮成了一條命令、一個結構化結果。

某種意義上，這是一條很反直覺但非常現實的優化路徑：節省 token 的方法，不是少讓 Agent 干活，而是先燒一點 token，把高頻流程預制成 CLI。磨刀不誤砍柴工。

這個邏輯也不只適用于 Web。桌面應用和手機 App，本質上都可以被逐步 CLI 化，what you see is what can cli。目前已有不少開源項目在分別推進這三個方向，只是三者之間還沒有形成統一的設計語言和引起大家足夠的重視。

07 分層才是終態

Agent 的未來，除了模型本身的提升，更取決于如何處理好兩種邏輯：確定性邏輯和語義邏輯。

前者靠 CLI，后者靠 Skill 的自適應和進化。Hermes 解決的是后者，但前者才是今天很多系統真正缺的底座。

如果把 CLI 化推到極致，會出現一件很反直覺的事：一類流程完全固定的任務，Agent 只需要判斷任務類型、路由到對應 CLI、拿結果回來——這個過程理論上甚至不需要 LLM，幾個 if-else 就夠了。你甚至可以用代碼去模擬 LLM 的輸入輸出接口，零 token、零延遲，繼續復用現有的 Agent 調度機制，只在真正需要判斷的地方才調用真實模型。

這有點像 2026 年的一場「代碼的文藝復興」——人們開始重新發現，不是所有「看起來像智能」的問題都應該交給模型來解決。

終態的分工應該是三層：

CLI 層：確定性執行，零 token，可并發，易測試，不依賴任何模型；

Skill 層：上下文編排和經驗蒸餾，越用越強；

LLM 層：提供智能，做真正需要語義判斷的部分。

三層不是競爭關系，而是依賴關系。

今天很多系統的問題在于，它們跳過了 CLI 層，直接讓 Skill 和 LLM 去兜底。結果就是：系統又貴又慢，穩定性也差。正確的路徑應該是——開發者預制 CLI，上層應用自動管理 Skill，LLM 在 Skill 的輔助下使用 CLI 解決問題。

Hermes 的出現不是終點，而是一個信號：Skill 層的問題可能正在被解決，但下一個真正的戰場，在 CLI 層。

Web 端、PC 端、移動端，三大平臺系統性的 CLI 改造才剛剛開始。這可能才是今天 Agent 領域最值得做、也最不性感，但最關鍵的事情。

本文來自微信公眾號“騰訊科技”，作者：Lambda，36氪經授權發布。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.