網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

一個(gè)被低估的AI Agent核心競(jìng)爭(zhēng)力

2026-03-11 17:03:30　來(lái)源: 深思圈

北京舉報(bào)

分享至

所有人都在追逐更強(qiáng)大的模型，但幾乎沒(méi)人談?wù)撃_手架。這是我最近觀察到的一個(gè)奇怪現(xiàn)象。每當(dāng)有新模型發(fā)布，科技圈就會(huì)沸騰，大家討論參數(shù)量、基準(zhǔn)測(cè)試分?jǐn)?shù)、上下文長(zhǎng)度。但當(dāng)我深入研究那些真正成功的 AI agent 產(chǎn)品時(shí)，我發(fā)現(xiàn)了一個(gè)被嚴(yán)重忽視的真相：決定 AI agent 性能的，不是你用哪個(gè)模型，而是你如何使用這個(gè)模型。同一個(gè)模型，在不同的系統(tǒng)架構(gòu)下，性能可以相差一倍。Claude Opus 4.5 在一個(gè)腳手架下得分 42%，換另一個(gè)腳手架后得分 78%。這不是模型的問(wèn)題，而是圍繞模型構(gòu)建的系統(tǒng)的問(wèn)題。

最近我讀到三位開(kāi)發(fā)者——Himanshu、Viv 和 Tony Kipkemboi——分別從不同角度深入分析了 agent harness 這個(gè)概念。他們的觀點(diǎn)相互補(bǔ)充，讓我對(duì) AI agent 的構(gòu)建有了全新的理解。Himanshu 通過(guò)分析頂尖公司的實(shí)踐證明了 harness 比模型更重要；Viv 從第一性原理出發(fā)，解釋了為什么我們需要 harness 以及它應(yīng)該包含什么；Tony 則清晰區(qū)分了 harness 和 framework 的概念，幫助我們理解它們各自的適用場(chǎng)景。這三個(gè)視角結(jié)合起來(lái)，構(gòu)成了一幅關(guān)于 AI agent 構(gòu)建的完整圖景。

Harness 到底是什么

在深入討論之前，我們需要先搞清楚 harness 這個(gè)概念。Tony Kipkemboi 曾在 CrewAI（一個(gè) agent framework）工作，他對(duì)這個(gè)概念有很清晰的定義。他把 agent 開(kāi)發(fā)比作一個(gè)光譜：最左邊是原始代碼，你直接調(diào)用 API，自己管理狀態(tài)，從零開(kāi)始構(gòu)建一切。中間是 agent framework（代理框架），給你提供結(jié)構(gòu)和抽象，但你仍然需要做很多決定。最右邊是 agent harness（代理腳手架），這是最有觀點(diǎn)的方案，一切都已經(jīng)內(nèi)置好了。

Viv 則從更技術(shù)的角度給出了定義：Agent = Model + Harness。如果不是模型本身，那就是 harness。換句話(huà)說(shuō)，harness 是所有不屬于模型的代碼、配置和執(zhí)行邏輯。一個(gè)原始模型不是 agent，但當(dāng) harness 給它提供狀態(tài)、工具執(zhí)行、反饋循環(huán)和可執(zhí)行約束時(shí)，它就變成了 agent。我很認(rèn)同這個(gè)定義，因?yàn)樗仁刮覀儚南到y(tǒng)的角度思考，而不僅僅是從模型的角度。

具體來(lái)說(shuō)，harness 包括系統(tǒng)提示、工具和技能及其描述、捆綁的基礎(chǔ)設(shè)施（文件系統(tǒng)、沙盒、瀏覽器）、編排邏輯（子 agent 生成、交接、模型路由）、以及用于確定性執(zhí)行的鉤子和中間件（壓縮、續(xù)傳、語(yǔ)法檢查）。這個(gè)列表乍看之下很技術(shù)化，但每一項(xiàng)都對(duì)應(yīng)著 agent 在實(shí)際工作中會(huì)遇到的具體問(wèn)題。

Framework vs Harness：關(guān)鍵區(qū)別

Tony 對(duì) framework 和 harness 的區(qū)分讓我豁然開(kāi)朗。Framework 給你提供構(gòu)建 agent 的抽象。你定義角色、任務(wù)、工具。你指定 agent 如何協(xié)作，是順序工作還是層次化工作。Framework 處理管道工作——調(diào)用 LLM、路由工具輸出、管理執(zhí)行循環(huán)。但你仍在做架構(gòu)決策。

Framework 對(duì)構(gòu)建塊的樣子有觀點(diǎn)，它有內(nèi)存抽象、工具接口、任務(wù)結(jié)構(gòu)。但這些部分是可交換的。如果你不喜歡默認(rèn)的內(nèi)存實(shí)現(xiàn)，可以插入自己的。如果想使用不同的 LLM 提供商，可以配置它。Framework 給你標(biāo)準(zhǔn)接口，但你仍在組裝系統(tǒng)。這種模塊化正是重點(diǎn)。Framework 是為想要構(gòu)建 agent 的人設(shè)計(jì)的，不僅僅是使用它們。你需要理解各部分如何組合，因?yàn)槟闶菦Q定使用哪些部分的人。

相比之下，harness 不給你構(gòu)建塊，它給你一個(gè)完整的系統(tǒng)。Tony 舉的例子是 OpenClaw，幾周前在網(wǎng)上很火。這是一個(gè) harness。你下載它，添加 API 密鑰，突然就有了一個(gè)可以在 WhatsApp、Telegram 和其他平臺(tái)上聊天的 agent。內(nèi)存已處理。上下文管理已處理。Agent 循環(huán)已處理。工具調(diào)用、權(quán)限、狀態(tài)持久化，全都內(nèi)置了。

你不是在配置內(nèi)存系統(tǒng)，不是在決定工具如何注冊(cè)或 agent 如何從錯(cuò)誤中恢復(fù)。這些決定已經(jīng)由構(gòu)建 harness 的人做出。你的工作是把它指向一個(gè)任務(wù)并讓它運(yùn)行。這就是權(quán)衡：你得到了立即可用的東西，但不能改變它內(nèi)部的工作方式。Harness 對(duì)一切都有觀點(diǎn)，使用它時(shí)你就是在接受這些觀點(diǎn)。

我的理解是，這個(gè)區(qū)別很像買(mǎi)家具和買(mǎi)宜家家具的區(qū)別。定制家具（framework）讓你選擇材料、尺寸、風(fēng)格，但你需要花時(shí)間設(shè)計(jì)和等待制作。宜家家具（harness）已經(jīng)設(shè)計(jì)好了，你買(mǎi)回家按說(shuō)明書(shū)組裝就能用，但你不能改變它的基本設(shè)計(jì)。兩者都有價(jià)值，取決于你的需求和能力。

從模型的視角理解：為什么需要 Harness

Viv 的文章有一個(gè)很有意思的角度：從模型的視角出發(fā)，推導(dǎo)出我們?yōu)槭裁葱枰?harness。這種自底向上的思考方式讓我對(duì) harness 的必要性有了更深的理解。

模型本身能做什么？它們接收文本、圖像、音頻、視頻等數(shù)據(jù)，輸出文本。就這樣。開(kāi)箱即用，它們無(wú)法維持跨交互的持久狀態(tài)，無(wú)法執(zhí)行代碼，無(wú)法訪問(wèn)實(shí)時(shí)知識(shí)，無(wú)法設(shè)置環(huán)境和安裝包來(lái)完成工作。這些都是 harness 層面的功能。LLM 的結(jié)構(gòu)決定了需要某種機(jī)制來(lái)包裝它們，才能做有用的工作。

舉個(gè)例子，要實(shí)現(xiàn)"聊天"這樣的產(chǎn)品體驗(yàn)，我們需要把模型包裝在一個(gè) while 循環(huán)中，跟蹤之前的消息并添加新的用戶(hù)消息。讀這篇文章的每個(gè)人都已經(jīng)使用過(guò)這種 harness。關(guān)鍵思想是，我們想把期望的 agent 行為轉(zhuǎn)化為 harness 中的實(shí)際功能。這個(gè)觀點(diǎn)讓我意識(shí)到，harness 工程本質(zhì)上是在彌合"模型能力"和"實(shí)際需求"之間的鴻溝。

Harness 的核心組件

基于 Viv 的分析，我總結(jié)了 harness 必須包含的幾個(gè)核心組件，以及每個(gè)組件存在的理由。

文件系統(tǒng)是最基礎(chǔ)的 harness 原語(yǔ)。我們希望 agent 有持久存儲(chǔ)來(lái)處理真實(shí)數(shù)據(jù)、卸載上下文窗口裝不下的信息、并在會(huì)話(huà)間持久化工作。模型只能直接操作上下文窗口內(nèi)的知識(shí)。在有文件系統(tǒng)之前，用戶(hù)必須復(fù)制粘貼內(nèi)容給模型，這體驗(yàn)很糟糕，而且對(duì)自主 agent 不起作用。世界已經(jīng)在使用文件系統(tǒng)工作，所以模型自然在數(shù)十億個(gè) token 上訓(xùn)練了如何使用它們。自然的解決方案是：harness 配備文件系統(tǒng)抽象和文件操作工具。

文件系統(tǒng)的重要性怎么強(qiáng)調(diào)都不為過(guò)。它讓 agent 有了工作空間來(lái)讀取數(shù)據(jù)、代碼和文檔。工作可以增量添加和卸載，而不是把所有東西都放在上下文中。Agent 可以存儲(chǔ)中間輸出并維護(hù)超越單個(gè)會(huì)話(huà)的狀態(tài)。文件系統(tǒng)還是自然的協(xié)作界面，多個(gè) agent 和人類(lèi)可以通過(guò)共享文件協(xié)調(diào)。Git 為文件系統(tǒng)添加版本控制，這樣 agent 可以跟蹤工作、回滾錯(cuò)誤、分支實(shí)驗(yàn)。

Bash 和代碼執(zhí)行則是通用工具。我們希望 agent 自主解決問(wèn)題，而不需要人類(lèi)預(yù)先設(shè)計(jì)每個(gè)工具。今天主流的 agent 執(zhí)行模式是 ReAct 循環(huán)，模型推理、通過(guò)工具調(diào)用采取行動(dòng)、觀察結(jié)果、在 while 循環(huán)中重復(fù)。但 harness 只能執(zhí)行它有邏輯的工具。與其強(qiáng)迫用戶(hù)為每個(gè)可能的動(dòng)作構(gòu)建工具，更好的解決方案是給 agent 一個(gè)通用工具，比如 bash。

Bash 加代碼執(zhí)行是朝著"給模型一臺(tái)計(jì)算機(jī)，讓它自己搞定其余部分"邁出的一大步。模型可以通過(guò)代碼即時(shí)設(shè)計(jì)自己的工具，而不是被限制在固定的預(yù)配置工具集中。Harness 仍然配備其他工具，但代碼執(zhí)行已經(jīng)成為自主問(wèn)題解決的默認(rèn)通用策略。我認(rèn)為這是一個(gè)重要的設(shè)計(jì)哲學(xué)轉(zhuǎn)變：從"提供足夠的工具"轉(zhuǎn)向"提供創(chuàng)建工具的能力"。

沙盒和執(zhí)行環(huán)境也必不可少。Agent 需要一個(gè)有正確默認(rèn)設(shè)置的環(huán)境，這樣它們可以安全行動(dòng)、觀察結(jié)果并取得進(jìn)展。我們已經(jīng)給了模型存儲(chǔ)和執(zhí)行代碼的能力，但這一切都需要在某個(gè)地方發(fā)生。在本地運(yùn)行 agent 生成的代碼有風(fēng)險(xiǎn)，而且單個(gè)本地環(huán)境無(wú)法擴(kuò)展到大量 agent 工作負(fù)載。

沙盒給 agent 提供安全的操作環(huán)境。Harness 可以連接到沙盒來(lái)運(yùn)行代碼、檢查文件、安裝依賴(lài)并完成任務(wù)，而不是在本地執(zhí)行。這創(chuàng)造了代碼的安全隔離執(zhí)行。為了更高安全性，harness 可以白名單命令并強(qiáng)制網(wǎng)絡(luò)隔離。沙盒還能實(shí)現(xiàn)規(guī)模化，因?yàn)榄h(huán)境可以按需創(chuàng)建、分散到多個(gè)任務(wù)，工作完成后銷(xiāo)毀。

好的環(huán)境配備好的默認(rèn)工具。Harness 負(fù)責(zé)配置工具，這樣 agent 可以做有用的工作。這包括預(yù)安裝語(yǔ)言運(yùn)行時(shí)和包、用于 git 和測(cè)試的 CLI、用于網(wǎng)頁(yè)交互和驗(yàn)證的瀏覽器。瀏覽器、日志、截圖和測(cè)試運(yùn)行器等工具給 agent 提供了觀察和分析工作的方法。這幫助它們創(chuàng)建自我驗(yàn)證循環(huán)，在那里它們可以編寫(xiě)應(yīng)用代碼、運(yùn)行測(cè)試、檢查日志并修復(fù)錯(cuò)誤。

內(nèi)存和搜索用于持續(xù)學(xué)習(xí)。Agent 應(yīng)該記住它們見(jiàn)過(guò)的東西，并訪問(wèn)訓(xùn)練時(shí)不存在的信息。模型除了權(quán)重和當(dāng)前上下文中的內(nèi)容外，沒(méi)有額外知識(shí)。在無(wú)法編輯模型權(quán)重的情況下，"添加知識(shí)"的唯一方法是通過(guò)上下文注入。

對(duì)于內(nèi)存，文件系統(tǒng)再次成為核心原語(yǔ)。Harness 支持像 AGENTS.md 這樣的內(nèi)存文件標(biāo)準(zhǔn)，在 agent 啟動(dòng)時(shí)注入上下文。隨著 agent 添加和編輯此文件，harness 將更新后的文件加載到上下文中。這是一種持續(xù)學(xué)習(xí)形式，agent 從一個(gè)會(huì)話(huà)持久存儲(chǔ)知識(shí)，并將該知識(shí)注入未來(lái)會(huì)話(huà)。

知識(shí)截止日期意味著模型無(wú)法直接訪問(wèn)新數(shù)據(jù)，比如更新的庫(kù)版本，除非用戶(hù)直接提供。對(duì)于最新知識(shí)，Web Search 和像 Context7 這樣的 MCP 工具幫助 agent 訪問(wèn)超出知識(shí)截止日期的信息，比如新庫(kù)版本或訓(xùn)練停止時(shí)不存在的當(dāng)前數(shù)據(jù)。

對(duì)抗上下文腐爛也是關(guān)鍵挑戰(zhàn)。Agent 性能不應(yīng)該在工作過(guò)程中降低。上下文腐爛描述的是模型在上下文窗口填滿(mǎn)時(shí)推理和完成任務(wù)的能力變差的現(xiàn)象。上下文是寶貴而稀缺的資源，所以 harness 需要策略來(lái)管理它。今天的 harness 在很大程度上是良好上下文工程的交付機(jī)制。

壓縮解決的是當(dāng)上下文窗口接近填滿(mǎn)時(shí)該怎么辦。沒(méi)有壓縮，當(dāng)對(duì)話(huà)超過(guò)上下文窗口會(huì)發(fā)生什么？一個(gè)選項(xiàng)是 API 報(bào)錯(cuò)，這不好。Harness 必須為這種情況使用某種策略。所以壓縮智能地卸載和總結(jié)現(xiàn)有上下文窗口，這樣 agent 可以繼續(xù)工作。

工具調(diào)用卸載幫助減少大型工具輸出的影響，這些輸出可能會(huì)嘈雜地堆滿(mǎn)上下文窗口而不提供有用信息。Harness 保留超過(guò)閾值 token 數(shù)的工具輸出的頭部和尾部 token，并將完整輸出卸載到文件系統(tǒng)，這樣模型可以在需要時(shí)訪問(wèn)它。

數(shù)據(jù)說(shuō)話(huà)：為什么 Harness 比模型更重要

說(shuō)到這里，我想回到 Himanshu 提供的那些令人震撼的數(shù)據(jù)。這些數(shù)字最有說(shuō)服力地證明了 harness 的重要性。

CORE-Bench 的測(cè)試結(jié)果非常直接。Claude Opus 4.5 在一個(gè)腳手架下得分 42%，換另一個(gè)腳手架后得分 78%。同樣的模型，性能幾乎翻倍。Sonnet 4 的表現(xiàn)是 33% vs 47%。Sonnet 4.5 是 44% vs 62%。這不是小幅改進(jìn)，這是質(zhì)的飛躍。唯一的變量是 harness，模型完全相同，基準(zhǔn)測(cè)試完全相同。

Cursor 的懶工具加載將 token 使用量削減了 46.9%。這是一個(gè)具有統(tǒng)計(jì)顯著性的數(shù)字。同樣的任務(wù)，同樣的模型，只是改變了工具的加載方式，就能節(jié)省近一半的 token?？紤]到 token 成本和處理速度，這種優(yōu)化的商業(yè)價(jià)值是巨大的。

更極端的案例來(lái)自 Vercel。他們刪除了 agent 80% 的工具，結(jié)果 agent 從失敗任務(wù)變成了完成任務(wù)。這個(gè)案例特別有意思，因?yàn)樗魬?zhàn)了我們的直覺(jué)。我們通常認(rèn)為給 agent 更多工具會(huì)讓它更強(qiáng)大，但事實(shí)證明，工具太多反而會(huì)降低性能。Token 從 145463 降到 67483，步驟從 100 降到 19，延遲從 724 秒降到 141 秒。這是全方位的改進(jìn)，而改變的只是 harness 設(shè)計(jì)。

LangChain 的 deepagents-cli 在 TerminalBench 2.0 上的表現(xiàn)也很說(shuō)明問(wèn)題。僅通過(guò)改變 harness，分?jǐn)?shù)從 52.8% 提升到 66.5%，提高了 13.7 個(gè)百分點(diǎn)。我反復(fù)強(qiáng)調(diào)這一點(diǎn)：模型完全沒(méi)變，只是改變了圍繞模型的腳手架。

這些數(shù)據(jù)讓我重新思考了 AI 行業(yè)的投資方向。我們看到無(wú)數(shù)公司花費(fèi)數(shù)百萬(wàn)甚至數(shù)十億美元訓(xùn)練更大更強(qiáng)的模型，但可能只需要花一小部分精力優(yōu)化 harness，就能獲得同等甚至更好的性能提升。這不是說(shuō)模型不重要，而是說(shuō)我們嚴(yán)重低估了 harness 的價(jià)值。

頂尖公司的 Harness 實(shí)踐

Himanshu 詳細(xì)分析了幾家頂尖公司的 harness 實(shí)現(xiàn)，每家都有獨(dú)特的設(shè)計(jì)哲學(xué)。

Claude Code 采用"模型控制循環(huán)"的理念。它是一個(gè)簡(jiǎn)單的 while(tool_call) 循環(huán)，沒(méi)有復(fù)雜的 DAG 編排，沒(méi)有競(jìng)爭(zhēng)的 agent 角色。模型接收消息和工具，返回文本結(jié)束循環(huán)，返回工具調(diào)用繼續(xù)循環(huán)。Anthropic 明確稱(chēng)之為"模型控制循環(huán)"而不是"代碼控制模型"。這個(gè)微妙的措辭差異體現(xiàn)了設(shè)計(jì)哲學(xué)：給模型更大的自主權(quán)。

Claude Code 只提供約 18 個(gè)原始工具，分四類(lèi)：命令行發(fā)現(xiàn)、文件交互、網(wǎng)頁(yè)訪問(wèn)和編排。設(shè)計(jì)哲學(xué)是原始工具優(yōu)于集成。更有意思的是，Anthropic 選擇正則表達(dá)式（ripgrep）而不是向量數(shù)據(jù)庫(kù)進(jìn)行代碼搜索，理由是 Claude 的代碼理解能力足夠強(qiáng)，可以構(gòu)建復(fù)雜正則表達(dá)式而不需要搜索索引。

Claude Code 還有一個(gè)巧妙設(shè)計(jì)：TodoWrite 工具。從功能上講它什么都不做，純粹是 harness 層面的技巧——一個(gè)無(wú)操作工具，強(qiáng)制 agent 明確表達(dá)和跟蹤計(jì)劃，讓它在長(zhǎng)時(shí)間運(yùn)行中保持正軌。這種設(shè)計(jì)讓我想到，有時(shí)候最有效的工具不是執(zhí)行復(fù)雜操作的，而是幫助 agent 保持清晰思路的簡(jiǎn)單機(jī)制。

Cursor 的核心決策是"文件作為基本原語(yǔ)"。為什么？因?yàn)槲募С謴?qiáng)大搜索、可自然分組、可版本化。他們針對(duì)每個(gè)前沿模型專(zhuān)門(mén)調(diào)優(yōu) harness。不同模型得到不同工具名稱(chēng)、提示指令和行為指導(dǎo)。這種精細(xì)化調(diào)優(yōu)讓我意識(shí)到，通用方案往往不是最優(yōu)方案。

Cursor 的自定義語(yǔ)義搜索特別值得一提。他們的嵌入模型使用 agent 會(huì)話(huà)軌跡作為訓(xùn)練數(shù)據(jù)。當(dāng) agent 完成任務(wù)時(shí)，Cursor 分析哪些文件本應(yīng)更早被檢索，然后訓(xùn)練嵌入模型匹配這些模式。結(jié)果是搜索準(zhǔn)確率平均提高 12.5%，在大型代碼庫(kù)上的代碼保留率提高 2.6%。這種從實(shí)際使用中學(xué)習(xí)的方法比任何理論優(yōu)化都更有效。

Manus 則走了另一個(gè)極端，從推出以來(lái)已經(jīng)重寫(xiě)了五次框架。他們最獨(dú)特的做法是使用 logit masking 而不是動(dòng)態(tài)移除工具。任何對(duì)上下文前端工具定義的更改都會(huì)使所有后續(xù) token 的 KV-cache 失效。所以所有約 29 個(gè)工具永久加載，每步可用性通過(guò)約束輸出 token 概率控制。

Manus 團(tuán)隊(duì)得出的最大教訓(xùn)是：最大性能提升來(lái)自刪除東西。復(fù)雜工具定義被 shell 執(zhí)行替代，"管理 agent"被簡(jiǎn)單交接替代。如果你的 agent harness 在模型變好的同時(shí)變復(fù)雜，那就出問(wèn)題了。這個(gè)觀點(diǎn)讓我深有感觸，真正的進(jìn)步往往來(lái)自簡(jiǎn)化和精簡(jiǎn)。

Progressive Disclosure：關(guān)鍵但被忽視的模式

Himanshu 特別強(qiáng)調(diào)了 progressive disclosure（漸進(jìn)式披露）這個(gè)概念，我認(rèn)為這是整個(gè) harness 設(shè)計(jì)中最被低估的模式。

Progressive disclosure 借鑒自 UI/UX 設(shè)計(jì)，1980 年代起源于 IBM Research 的 John Carroll，1990 年代由 Jakob Nielsen 推廣。核心原則：只顯示現(xiàn)在需要的內(nèi)容，按需揭示復(fù)雜性。這直接映射到 agent 設(shè)計(jì)。就像可折疊菜單減少人類(lèi)認(rèn)知負(fù)荷，分層上下文加載減少 LLM 注意力分散。

數(shù)據(jù)非常有說(shuō)服力。Claude-Mem 文檔顯示，靜態(tài)加載注入 25000 個(gè) token，效率只有 0.8%。Progressive disclosure 只需 955 個(gè) token，效率 100%。這是約 26 倍改進(jìn)。Cursor 的懶加載實(shí)現(xiàn) 46.9% token 削減。Vercel 刪除 80% 工具后，token 從 145463 降到 67483，步驟從 100 降到 19，延遲從 724 秒降到 141 秒，agent 從失敗變成功。

各家公司實(shí)現(xiàn)方式不同但思路一致。Claude Code 的 SKILL.md 模式：技能存儲(chǔ)為 .claude/skills/ 文件，不預(yù)加載到每次對(duì)話(huà)。與每次加載的 CLAUDE.md 不同，技能只在 Claude 檢測(cè)到相關(guān)性時(shí)加載。當(dāng)項(xiàng)目有幾十個(gè)技能時(shí)，這防止上下文膨脹。

為什么 progressive disclosure 如此重要？Liu 等人在 TACL 2024 的論文證明，LLM 性能遵循 U 型曲線(xiàn)——相關(guān)信息在輸入開(kāi)頭或結(jié)尾時(shí)性能最高，在中間時(shí)下降。即使長(zhǎng)上下文模型也是如此。這就是為什么 harness 重要：progressive disclosure 保持輸入較小，并將新檢索信息放在末尾。

我的理解是，這從根本上挑戰(zhàn)了"給模型更多上下文總是更好"的假設(shè)。上下文組織方式比數(shù)量更重要。這也解釋了為什么同一模型在不同 harness 下性能差異如此巨大。

Framework 與 Harness 的模糊邊界

Tony 指出，framework 和 harness 的界限并不總是清晰的，而且我認(rèn)為它也不應(yīng)該清晰。

一些 framework 正在添加類(lèi)似 harness 的功能。LangChain 是個(gè)好例子。他們發(fā)布了 Deep Agents，明確稱(chēng)之為"agent harness"，位于框架之上。它配備內(nèi)置規(guī)劃工具、用于上下文管理的文件系統(tǒng)訪問(wèn)、子 agent 生成和內(nèi)存持久化。你仍在底層使用 LangChain，但 Deep Agents 給你開(kāi)箱即用的默認(rèn)設(shè)置，這樣你不必自己把所有東西連接起來(lái)。

LangChain 實(shí)際上在自己的技術(shù)棧中區(qū)分了三層。LangChain（原始庫(kù)）是 framework。LangGraph 是他們稱(chēng)為"agent runtime"（代理運(yùn)行時(shí)）的東西，處理執(zhí)行、狀態(tài)管理和持久性。Deep Agents 是位于兩者之上的 harness。這是一家公司跨越整個(gè)光譜。用于組合 agent 的 framework，用于可靠執(zhí)行的 runtime，用于開(kāi)箱即用的 harness。

這是一家 framework 公司向光譜右側(cè)移動(dòng)。Deep Agents 仍然是模塊化的。你可以交換后端、配置工具、調(diào)整提示。但它給你一個(gè)工作系統(tǒng)，不需要你組裝每一塊。

另一方面，harness 也沒(méi)有聽(tīng)起來(lái)那么鎖定。拿 OpenClaw 來(lái)說(shuō)，開(kāi)箱即用時(shí)最有觀點(diǎn)，但如果你下載源代碼，可以交換實(shí)現(xiàn)。你可以改變內(nèi)存工作方式、調(diào)整 agent 循環(huán)、修改工具處理。只是大多數(shù)人不會(huì)這樣做，因?yàn)槟J(rèn)已經(jīng)工作了。

區(qū)別在于開(kāi)始時(shí)已經(jīng)決定了什么。Harness 配備內(nèi)置決策。Framework 暴露選項(xiàng)。如果使用 harness，你接受大多數(shù)決策并在邊緣配置。如果使用 framework，你自己做決策并組裝系統(tǒng)。

長(zhǎng)時(shí)程自主執(zhí)行的挑戰(zhàn)

Viv 特別強(qiáng)調(diào)了長(zhǎng)時(shí)程自主執(zhí)行的重要性和挑戰(zhàn)。自主軟件創(chuàng)建是編碼 agent 的圣杯，但今天的模型存在早期停止、復(fù)雜問(wèn)題分解困難、以及工作跨越多個(gè)上下文窗口時(shí)的不連貫問(wèn)題。好的 harness 必須圍繞所有這些設(shè)計(jì)。

這正是早期 harness 原語(yǔ)開(kāi)始復(fù)合的地方。長(zhǎng)時(shí)程工作需要持久狀態(tài)、規(guī)劃、觀察和驗(yàn)證，以在多個(gè)上下文窗口間持續(xù)工作。文件系統(tǒng)和 git 用于跨會(huì)話(huà)跟蹤工作。Agent 在長(zhǎng)任務(wù)中產(chǎn)生數(shù)百萬(wàn) token，文件系統(tǒng)持久捕獲工作以隨時(shí)間跟蹤進(jìn)展。添加 git 允許新 agent 快速了解最新工作和項(xiàng)目歷史。對(duì)于多個(gè) agent 協(xié)作，文件系統(tǒng)也充當(dāng)共享工作賬本。

Ralph Loop 是一個(gè)有意思的 harness 模式，用于繼續(xù)工作。它通過(guò)鉤子攔截模型的退出嘗試，在干凈的上下文窗口中重新注入原始提示，強(qiáng)制 agent 針對(duì)完成目標(biāo)繼續(xù)工作。文件系統(tǒng)使這成為可能，因?yàn)槊看蔚鷱男律舷挛拈_(kāi)始但從上一次迭代讀取狀態(tài)。

規(guī)劃和自我驗(yàn)證讓 agent 保持正軌。規(guī)劃是模型將目標(biāo)分解為一系列步驟。Harness 通過(guò)良好提示和注入如何使用文件系統(tǒng)中計(jì)劃文件的提醒來(lái)支持這一點(diǎn)。完成每一步后，agent 從通過(guò)自我驗(yàn)證檢查工作正確性中受益。Harness 中的鉤子可以運(yùn)行預(yù)定義測(cè)試套件，在失敗時(shí)循環(huán)回模型并帶上錯(cuò)誤消息，或者可以提示模型獨(dú)立自我評(píng)估代碼。驗(yàn)證將解決方案建立在測(cè)試上，并為自我改進(jìn)創(chuàng)建反饋信號(hào)。

Harness 的未來(lái)

三位作者都對(duì) harness 的未來(lái)有自己的看法，我覺(jué)得他們的觀點(diǎn)很有啟發(fā)性。

Himanshu 注意到模型訓(xùn)練和 harness 設(shè)計(jì)的耦合。今天的 agent 產(chǎn)品如 Claude Code 和 Codex 在模型后訓(xùn)練時(shí)將 harness 納入循環(huán)。這幫助模型在 harness 設(shè)計(jì)者認(rèn)為它們應(yīng)該原生擅長(zhǎng)的動(dòng)作上改進(jìn)，如文件系統(tǒng)操作、bash 執(zhí)行、規(guī)劃或與子 agent 并行工作。

這創(chuàng)造了一個(gè)反饋循環(huán)。有用的原語(yǔ)被發(fā)現(xiàn)、添加到 harness，然后在訓(xùn)練下一代模型時(shí)使用。隨著這個(gè)循環(huán)重復(fù)，模型在訓(xùn)練時(shí)所在的 harness 中變得更有能力。但這種共同演化對(duì)泛化有有趣的副作用。它以改變工具邏輯導(dǎo)致模型性能下降的方式表現(xiàn)出來(lái)。一個(gè)真正智能的模型應(yīng)該不難在補(bǔ)丁方法間切換，但在循環(huán)中訓(xùn)練會(huì)創(chuàng)造這種過(guò)擬合。

但這并不意味著對(duì)你任務(wù)最好的 harness 就是模型后訓(xùn)練時(shí)用的那個(gè)。Terminal Bench 2.0 排行榜是個(gè)好例子。Opus 4.6 在 Claude Code 中的得分遠(yuǎn)低于在其他 harness 中的 Opus 4.6。通過(guò)只改變 harness 可以榨取很多價(jià)值。

Viv 認(rèn)為隨著模型變得更有能力，今天存在于 harness 中的一些東西會(huì)被吸收到模型中。模型會(huì)在規(guī)劃、自我驗(yàn)證和長(zhǎng)時(shí)程連貫性上原生變好，因此需要更少的上下文注入。這表明 harness 隨時(shí)間會(huì)變得不那么重要。但就像提示工程今天繼續(xù)有價(jià)值一樣，harness 工程可能會(huì)繼續(xù)對(duì)構(gòu)建好的 agent 有用。

Harness 今天確實(shí)在修補(bǔ)模型缺陷，但它們也圍繞模型智能構(gòu)建系統(tǒng)以使其更有效。配置良好的環(huán)境、正確的工具、持久狀態(tài)和驗(yàn)證循環(huán)讓任何模型更高效，無(wú)論其基礎(chǔ)智能如何。

Viv 提到 harness 工程是 LangChain 用來(lái)改進(jìn)其 harness 構(gòu)建庫(kù) deepagents 的一個(gè)非常活躍的研究領(lǐng)域。一些開(kāi)放和有趣的問(wèn)題包括：編排數(shù)百個(gè) agent 在共享代碼庫(kù)上并行工作；分析自己軌跡以識(shí)別和修復(fù) harness 級(jí)別失敗模式的 agent；根據(jù)給定任務(wù)即時(shí)動(dòng)態(tài)組裝正確工具和上下文而不是預(yù)配置的 harness。

我對(duì) Harness 未來(lái)的思考

讀完這三位作者的分析后,我有一些自己的深度思考。

我認(rèn)為 harness 工程正在成為一門(mén)獨(dú)立的學(xué)科。就像軟件工程從計(jì)算機(jī)科學(xué)中分離出來(lái),成為一個(gè)有自己方法論、最佳實(shí)踐和工具鏈的領(lǐng)域一樣,harness 工程也在經(jīng)歷類(lèi)似的過(guò)程。我們已經(jīng)看到了一些早期信號(hào):專(zhuān)門(mén)的 harness 構(gòu)建庫(kù)(如 LangChain 的 Deep Agents)、harness 設(shè)計(jì)模式的總結(jié)(如 12 Factor Agents)、以及用于評(píng)估 harness 質(zhì)量的基準(zhǔn)測(cè)試(如 CORE-Bench、Terminal Bench)。

這種專(zhuān)業(yè)化很重要,因?yàn)樗档土藰?gòu)建高質(zhì)量 AI agent 的門(mén)檻。當(dāng) harness 工程成為一門(mén)成熟的學(xué)科時(shí),開(kāi)發(fā)者不需要從零開(kāi)始摸索,可以借鑒已驗(yàn)證的模式和最佳實(shí)踐。這會(huì)加速整個(gè)行業(yè)的創(chuàng)新速度。

我也注意到一個(gè)有趣的悖論:雖然模型在變得更強(qiáng)大,但對(duì) harness 的需求不會(huì)消失,只是會(huì)轉(zhuǎn)變形式。早期的 harness 主要是在彌補(bǔ)模型的不足,比如給模型添加文件系統(tǒng)訪問(wèn)、代碼執(zhí)行能力等基礎(chǔ)功能。但隨著這些能力逐漸被模型原生支持,harness 的角色會(huì)從"能力補(bǔ)充"轉(zhuǎn)向"性能優(yōu)化"和"可靠性保證"。

就像現(xiàn)代編程語(yǔ)言已經(jīng)有了垃圾回收、類(lèi)型系統(tǒng)等高級(jí)特性,但我們?nèi)匀恍枰蚣芎蛶?kù)來(lái)構(gòu)建復(fù)雜應(yīng)用一樣,未來(lái)即使模型本身變得非常強(qiáng)大,我們?nèi)匀恍枰?harness 來(lái)優(yōu)化性能、管理復(fù)雜性、確保可靠性。Progressive disclosure、上下文管理、錯(cuò)誤恢復(fù)這些問(wèn)題不會(huì)因?yàn)槟Ｐ妥儚?qiáng)而消失。

從商業(yè)角度看,我認(rèn)為 harness 工程能力將成為 AI 公司的核心競(jìng)爭(zhēng)力之一。模型本身正在快速商品化,任何公司都可以通過(guò) API 訪問(wèn)最先進(jìn)的模型。但如何有效利用這些模型、如何設(shè)計(jì)出讓模型發(fā)揮最大效能的系統(tǒng),這才是真正的護(hù)城河。這就像云計(jì)算時(shí)代,底層基礎(chǔ)設(shè)施(AWS、Azure、GCP)是商品,但在這些基礎(chǔ)設(shè)施上構(gòu)建的應(yīng)用和平臺(tái)才是真正的價(jià)值所在。

我還思考了 harness 設(shè)計(jì)的一個(gè)哲學(xué)問(wèn)題:應(yīng)該給模型多大的自主權(quán)?Claude Code 的"模型控制循環(huán)"代表了一個(gè)極端,給模型最大的自由度。而更傳統(tǒng)的方法則傾向于用代碼嚴(yán)格控制 agent 的每一步。我認(rèn)為最佳平衡點(diǎn)會(huì)隨著模型能力的提升而移動(dòng)。當(dāng)模型還比較弱時(shí),需要更多的 harness 級(jí)別控制和約束。但隨著模型變強(qiáng),給它們更多自主權(quán)會(huì)帶來(lái)更好的結(jié)果。這個(gè)平衡點(diǎn)的把握,需要深刻理解模型的能力邊界和任務(wù)的復(fù)雜度。

Tony 提出的"你解決什么問(wèn)題決定你需要 framework 還是 harness"這個(gè)觀點(diǎn)讓我想到,也許我們需要一個(gè)更細(xì)粒度的分類(lèi)。在 framework 和 harness 之間,可能還有很多中間狀態(tài)。比如"可配置的 harness"、"模塊化的 harness"、"領(lǐng)域特定的 harness"等等。未來(lái)可能會(huì)出現(xiàn)更多這樣的中間形態(tài),讓開(kāi)發(fā)者可以根據(jù)具體需求選擇合適的抽象層次。

最后,我想強(qiáng)調(diào) Himanshu 提到的一個(gè)關(guān)鍵洞察:最好的團(tuán)隊(duì)一直在簡(jiǎn)化。Manus 五次重寫(xiě),每次都刪除東西。Anthropic 設(shè)計(jì) Claude Code 是為了隨模型改進(jìn)而縮小。這個(gè)趨勢(shì)告訴我們,harness 工程的終極目標(biāo)不是構(gòu)建一個(gè)功能齊全、無(wú)所不包的系統(tǒng),而是找到最小必要集——那些真正不可或缺、無(wú)法被模型原生能力替代的部分。這需要持續(xù)的迭代、測(cè)試和勇于刪除的決心。

Agent = Model + Harness。這個(gè)簡(jiǎn)單的等式背后,是關(guān)于如何構(gòu)建真正有用的 AI 系統(tǒng)的深刻洞察。模型提供智能,harness 讓智能有用。在追逐更強(qiáng)大模型的同時(shí),我們不應(yīng)該忽視 harness 工程的價(jià)值。因?yàn)樽罱K,沒(méi)有人購(gòu)買(mǎi)引擎,大家購(gòu)買(mǎi)的是完整的汽車(chē)。

結(jié)尾

也歡迎大家留言討論，分享你的觀點(diǎn)！

覺(jué)得內(nèi)容不錯(cuò)的朋友能夠幫忙右下角點(diǎn)個(gè)贊，分享一下。您的每次分享，都是在激勵(lì)我不斷產(chǎn)出更好的內(nèi)容。

歡迎關(guān)注深思圈，一起探索更大的世界。

- END -

兩個(gè)“特別坑”的AI產(chǎn)品創(chuàng)業(yè)方向，你知道嗎

速度將成為AI時(shí)代唯一的護(hù)城河

a16z重磅預(yù)測(cè)：Vibe coding贏者通吃？錯(cuò)了，垂直專(zhuān)業(yè)化才是未來(lái)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.