文|Lambda
編輯|曉靜
4月初,Hermes Agent 火了。這個名字直接讓人聯想到奢侈品牌愛馬仕,所以也被戲稱為“愛馬仕Agent”。
它由 Nous Research 在 2 月發布,定位是「The agent that grows with you」。核心賣點是一個閉環學習系統:Agent 完成復雜任務后,自動把經驗固化成 Skill,下次遇到類似任務直接復用,還能在使用過程中持續改進。Skill 自動生成、越用越強——這是 Agent 領域目前最有吸引力的敘事之一。
但這個敘事遮蔽了一個更基本的問題:Skill 真的是當前 Agent 落地的主要瓶頸嗎?
![]()
圖片由AI生成
01 Skill 很性感,但它可能不是最重要的問題
一個容易被忽略的事實是:目前公認體驗最好的編程 Agent 產品之一——Claude Code,它好用的基石并不是 Skill 的自動進化,而是背后大量扎實的 CLI 工具支撐。
用 GlobTool 找候選文件,用 GrepTool 定位相關代碼片段,用 FileReadTool 查看實現細節,用 LSPTool 做代碼符號跳轉和引用分析。每一個都是確定性的、零 token 消耗的原子操作。
但人們很少為這些工具寫故事。只要一提到 Agent 能自動生成 Skill、還能持續進化,整個行業立刻就興奮起來。
這個反差說明了一件事:CLI (命令行界面)不性感,不好講故事,但它才是 Agent 能力的真正地基。
地基不牢,Skill 再會長,也只是長在沙地上。
02 龍蝦最被人詬病的地方,Skill 自主進化解決不了
這件事放到 OpenClaw(俗稱‘龍蝦”) 身上會看得更清楚。
OpenClaw 最被人詬病的兩點,一是 token 消耗大、賬單吃不消,二是長時間工作穩定性差、經常失聯。乍一看是兩個問題;往下拆,會發現它們經常來自同一個源頭:Agent 在用劣質工具——比如脆弱的瀏覽器自動化——去完成本該由確定性工具完成的任務。
這類成本在社區里并非抽象的抱怨,而有大量具體案例。
Reddit 上有 OpenClaw 用戶提到,自己只是想自動化 X 賬號發帖,三次嘗試就花掉了 10 美元,任務還沒真正跑通。還有人在 r/automation 里直言,現在很多所謂的 AI Agent 瀏覽器控制,本質上只是「披著智能外衣的脆弱自動化」——問題不在模型有多笨,而在底層工具本身就不可靠。頁面一變、DOM 一改、按鈕狀態一抖,Agent 就只能一遍遍觀察、一遍遍重試、一遍遍重新規劃。
而這些「失敗但不致命」的試錯過程,并不會因為任務沒完成就免費——每一次觀察頁面、分析狀態、決定下一步,都在繼續消耗 token。
于是,穩定性問題和成本問題,其實是同一個問題的兩面:工具越脆弱,試錯越多;試錯越多,token 燒得越快;任務鏈越長,失聯和中斷的概率也越高。
從這個角度看,Skill 自主進化解決的是「怎么更聰明地使用一個工具」,但并沒有解決「好工具本身稀缺」的問題。Skill 可以讓 Agent 更熟練地駕馭一匹跛腳馬,但并不能把跛腳馬變成千里馬。
這才是今天很多 Agent 系統真正卡住的地方:不是 Skill 不夠強,而是底下能調度的高質量原子工具太少。
03 Skill 是對模型能力的補丁
Hermes 做的事情,本質上是把 Skill 的生成和優化自動化——讓 Agent 從經驗中蒸餾知識,不再需要人手寫。這確實解決了一個真實痛點。
但 Skill 本身有一個更深層的問題:它是自然語言驅動的,本質上是模型能力的延伸,或者說,是一種對模型能力的借貸。
現狀是,大量 Agent 在用 Skill 加上自主解題能力,完成本該由 CLI 完成的事情——比如以效率低下的瀏覽器自動化方案查一個股票價格、下載一張圖片、提交一個表單。代價很清楚:貴、慢、不穩定、調試難。
這里還有一個常見的認知誤區,可以叫做「Skill 可遷移幻覺」:很多人以為,用強模型寫出來的 Skill,可以無縫遷移給弱模型用。實際上不能。Skill 是自然語言指令,它對模型能力有隱性依賴;模型一換,行為就可能變。CLI 則不同——它是代碼:同樣的輸入,永遠給你同樣的輸出,不管底下跑的是什么模型。
二者的區別非常鮮明:
Skill 調試難,CLI 調試容易;
Skill 燒 token,CLI 近乎零消耗;
Skill 吃模型版本,CLI 不吃;
Skill 是語義層資產,CLI 是執行層資產。
如果把 Skill 當成核心積累方向,本質上是把賭注壓在模型能力的穩定性上。至少在當前階段,更值得積累的是高質量 CLI。
04 當工具和上下文足夠好時,Skill 的優先級會自然下降
上面的分析也能從 Anthropic 自己的產品經驗里得到印證。
Anthropic 的設計負責人、Cowork 產品的設計主導者 Jenny Wen 在近期訪談中提到一個細節:她個人其實不怎么用 Cowork 的 Skills 功能。原因不是她否定 Skill,而是她在 Cowork 里掛載了一個文件夾,里面有自己長期積累的個人筆記、一對一會議記錄、隨手想法和工作觀察。對她來說,Cowork 從這些材料里已經學到了足夠的信息,以至于她對 Skill 和 Memory 的需求都被顯著削弱了。
這并不是說 Skill 沒有價值,而是說:當上下文管理足夠好、底層工具足夠強時,Skill 的優先級會自然下降。
換言之,Hermes 所強調的 Skill 自主進化并不是錯,而是它解決的問題很可能沒有想象中那么基礎。
05 有一件事正在悄悄發生:CLI 的使用者,從人變成了 Agent
如果說 Skill 解決的是應用層的編排問題,那么更底層的變化發生在 CLI 上。
過去,CLI 是為人設計的。給人用的 CLI 可以有交互提示,可以容忍模糊輸出,也可以在文檔不全的時候靠用戶自己猜——因為人會停下來,會理解歧義,會重試,會去查文檔。
Agent 不一樣。
Agent 不睡覺,不容忍歧義,會并發,會在沒有預料到的時機無限重試。一個對人類來說「勉強能用」的 CLI,對 Agent 來說可能就是高頻事故源。
給 Agent 用的 CLI 必須滿足一組完全不同的要求:
一條命令只產出一個明確結果;
輸出是結構化的 JSON;
錯誤信息不僅告訴你哪里錯了,還要告訴 Agent 下一步該怎么辦;
長任務必須支持異步,不能讓 Agent 傻等;
接口天然支持冪等、重試和并發。
背后只有一句話:以前的軟件默認使用者要睡覺、會分心、有耐心;現在 Agent 不滿足這些前提。
一旦使用者從人變成 Agent,CLI 的設計哲學就需要從頭重寫。Agent 真正在乎的是 token 消耗、緩存命中率、幻覺控制、長程穩定性,而不是「這個命令看起來是否優雅」。
06 瀏覽器里能看到的,都值得被 CLI 化
有一個實驗很能說明問題:把 ChatGPT 的網頁版變成一個可以被 Agent 調用的 CLI。
做法并不神秘——通過 Chrome CDP 協議直接驅動瀏覽器,操作 DOM,填輸入框,點發送,等待文字出現,再把結果抓下來。因為復用了已有登錄態,行為上和人在瀏覽器里操作沒有本質區別。
這個實驗背后更大的洞察是:瀏覽器里能看到的,原則上都可以被 CLI 化。
不只是 ChatGPT——Gemini、音樂生成、視頻生成、股票圖表,只要能在瀏覽器里完成的流程,都可以被代碼重復執行,最后收斂成一條 Agent 可調用的命令。
一旦一個 Web 流程被 CLI 化,它就會從「需要 Agent 一步步盯著網頁試錯」的流程,變成「可并發、可異步、可冪等的原子操作」。原來要靠瀏覽器自動化消耗大量 token 才能完成的事,被壓縮成了一條命令、一個結構化結果。
某種意義上,這是一條很反直覺但非常現實的優化路徑:節省 token 的方法,不是少讓 Agent 干活,而是先燒一點 token,把高頻流程預制成 CLI。磨刀不誤砍柴工。
這個邏輯也不只適用于 Web。桌面應用和手機 App,本質上都可以被逐步 CLI 化,what you see is what can cli。目前已有不少開源項目在分別推進這三個方向,只是三者之間還沒有形成統一的設計語言和引起大家足夠的重視。
07 分層才是終態
Agent 的未來,除了模型本身的提升,更取決于如何處理好兩種邏輯:確定性邏輯和語義邏輯。
前者靠 CLI,后者靠 Skill 的自適應和進化。Hermes 解決的是后者,但前者才是今天很多系統真正缺的底座。
如果把 CLI 化推到極致,會出現一件很反直覺的事:一類流程完全固定的任務,Agent 只需要判斷任務類型、路由到對應 CLI、拿結果回來——這個過程理論上甚至不需要 LLM,幾個 if-else 就夠了。你甚至可以用代碼去模擬 LLM 的輸入輸出接口,零 token、零延遲,繼續復用現有的 Agent 調度機制,只在真正需要判斷的地方才調用真實模型。
這有點像 2026 年的一場「代碼的文藝復興」——人們開始重新發現,不是所有「看起來像智能」的問題都應該交給模型來解決。
終態的分工應該是三層:
CLI 層:確定性執行,零 token,可并發,易測試,不依賴任何模型;
Skill 層:上下文編排和經驗蒸餾,越用越強;
LLM 層:提供智能,做真正需要語義判斷的部分。
三層不是競爭關系,而是依賴關系。
今天很多系統的問題在于,它們跳過了 CLI 層,直接讓 Skill 和 LLM 去兜底。結果就是:系統又貴又慢,穩定性也差。正確的路徑應該是——開發者預制 CLI,上層應用自動管理 Skill,LLM 在 Skill 的輔助下使用 CLI 解決問題。
Hermes 的出現不是終點,而是一個信號:Skill 層的問題可能正在被解決,但下一個真正的戰場,在 CLI 層。
Web 端、PC 端、移動端,三大平臺系統性的 CLI 改造才剛剛開始。這可能才是今天 Agent 領域最值得做、也最不性感,但最關鍵的事情。
本文來自微信公眾號“騰訊科技”,作者:Lambda,36氪經授權發布。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.