337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

一個(gè)被低估的AI Agent核心競(jìng)爭(zhēng)力

0
分享至


所有人都在追逐更強(qiáng)大的模型,但幾乎沒(méi)人談?wù)撃_手架。這是我最近觀察到的一個(gè)奇怪現(xiàn)象。每當(dāng)有新模型發(fā)布,科技圈就會(huì)沸騰,大家討論參數(shù)量、基準(zhǔn)測(cè)試分?jǐn)?shù)、上下文長(zhǎng)度。但當(dāng)我深入研究那些真正成功的 AI agent 產(chǎn)品時(shí),我發(fā)現(xiàn)了一個(gè)被嚴(yán)重忽視的真相:決定 AI agent 性能的,不是你用哪個(gè)模型,而是你如何使用這個(gè)模型。同一個(gè)模型,在不同的系統(tǒng)架構(gòu)下,性能可以相差一倍。Claude Opus 4.5 在一個(gè)腳手架下得分 42%,換另一個(gè)腳手架后得分 78%。這不是模型的問(wèn)題,而是圍繞模型構(gòu)建的系統(tǒng)的問(wèn)題。

最近我讀到三位開(kāi)發(fā)者——Himanshu、Viv 和 Tony Kipkemboi——分別從不同角度深入分析了 agent harness 這個(gè)概念。他們的觀點(diǎn)相互補(bǔ)充,讓我對(duì) AI agent 的構(gòu)建有了全新的理解。Himanshu 通過(guò)分析頂尖公司的實(shí)踐證明了 harness 比模型更重要;Viv 從第一性原理出發(fā),解釋了為什么我們需要 harness 以及它應(yīng)該包含什么;Tony 則清晰區(qū)分了 harness 和 framework 的概念,幫助我們理解它們各自的適用場(chǎng)景。這三個(gè)視角結(jié)合起來(lái),構(gòu)成了一幅關(guān)于 AI agent 構(gòu)建的完整圖景。


Harness 到底是什么

在深入討論之前,我們需要先搞清楚 harness 這個(gè)概念。Tony Kipkemboi 曾在 CrewAI(一個(gè) agent framework)工作,他對(duì)這個(gè)概念有很清晰的定義。他把 agent 開(kāi)發(fā)比作一個(gè)光譜:最左邊是原始代碼,你直接調(diào)用 API,自己管理狀態(tài),從零開(kāi)始構(gòu)建一切。中間是 agent framework(代理框架),給你提供結(jié)構(gòu)和抽象,但你仍然需要做很多決定。最右邊是 agent harness(代理腳手架),這是最有觀點(diǎn)的方案,一切都已經(jīng)內(nèi)置好了。

Viv 則從更技術(shù)的角度給出了定義:Agent = Model + Harness。如果不是模型本身,那就是 harness。換句話(huà)說(shuō),harness 是所有不屬于模型的代碼、配置和執(zhí)行邏輯。一個(gè)原始模型不是 agent,但當(dāng) harness 給它提供狀態(tài)、工具執(zhí)行、反饋循環(huán)和可執(zhí)行約束時(shí),它就變成了 agent。我很認(rèn)同這個(gè)定義,因?yàn)樗仁刮覀儚南到y(tǒng)的角度思考,而不僅僅是從模型的角度。

具體來(lái)說(shuō),harness 包括系統(tǒng)提示、工具和技能及其描述、捆綁的基礎(chǔ)設(shè)施(文件系統(tǒng)、沙盒、瀏覽器)、編排邏輯(子 agent 生成、交接、模型路由)、以及用于確定性執(zhí)行的鉤子和中間件(壓縮、續(xù)傳、語(yǔ)法檢查)。這個(gè)列表乍看之下很技術(shù)化,但每一項(xiàng)都對(duì)應(yīng)著 agent 在實(shí)際工作中會(huì)遇到的具體問(wèn)題。


Framework vs Harness:關(guān)鍵區(qū)別

Tony 對(duì) framework 和 harness 的區(qū)分讓我豁然開(kāi)朗。Framework 給你提供構(gòu)建 agent 的抽象。你定義角色、任務(wù)、工具。你指定 agent 如何協(xié)作,是順序工作還是層次化工作。Framework 處理管道工作——調(diào)用 LLM、路由工具輸出、管理執(zhí)行循環(huán)。但你仍在做架構(gòu)決策。

Framework 對(duì)構(gòu)建塊的樣子有觀點(diǎn),它有內(nèi)存抽象、工具接口、任務(wù)結(jié)構(gòu)。但這些部分是可交換的。如果你不喜歡默認(rèn)的內(nèi)存實(shí)現(xiàn),可以插入自己的。如果想使用不同的 LLM 提供商,可以配置它。Framework 給你標(biāo)準(zhǔn)接口,但你仍在組裝系統(tǒng)。這種模塊化正是重點(diǎn)。Framework 是為想要構(gòu)建 agent 的人設(shè)計(jì)的,不僅僅是使用它們。你需要理解各部分如何組合,因?yàn)槟闶菦Q定使用哪些部分的人。

相比之下,harness 不給你構(gòu)建塊,它給你一個(gè)完整的系統(tǒng)。Tony 舉的例子是 OpenClaw,幾周前在網(wǎng)上很火。這是一個(gè) harness。你下載它,添加 API 密鑰,突然就有了一個(gè)可以在 WhatsApp、Telegram 和其他平臺(tái)上聊天的 agent。內(nèi)存已處理。上下文管理已處理。Agent 循環(huán)已處理。工具調(diào)用、權(quán)限、狀態(tài)持久化,全都內(nèi)置了。

你不是在配置內(nèi)存系統(tǒng),不是在決定工具如何注冊(cè)或 agent 如何從錯(cuò)誤中恢復(fù)。這些決定已經(jīng)由構(gòu)建 harness 的人做出。你的工作是把它指向一個(gè)任務(wù)并讓它運(yùn)行。這就是權(quán)衡:你得到了立即可用的東西,但不能改變它內(nèi)部的工作方式。Harness 對(duì)一切都有觀點(diǎn),使用它時(shí)你就是在接受這些觀點(diǎn)。

我的理解是,這個(gè)區(qū)別很像買(mǎi)家具和買(mǎi)宜家家具的區(qū)別。定制家具(framework)讓你選擇材料、尺寸、風(fēng)格,但你需要花時(shí)間設(shè)計(jì)和等待制作。宜家家具(harness)已經(jīng)設(shè)計(jì)好了,你買(mǎi)回家按說(shuō)明書(shū)組裝就能用,但你不能改變它的基本設(shè)計(jì)。兩者都有價(jià)值,取決于你的需求和能力。


從模型的視角理解:為什么需要 Harness

Viv 的文章有一個(gè)很有意思的角度:從模型的視角出發(fā),推導(dǎo)出我們?yōu)槭裁葱枰?harness。這種自底向上的思考方式讓我對(duì) harness 的必要性有了更深的理解。

模型本身能做什么?它們接收文本、圖像、音頻、視頻等數(shù)據(jù),輸出文本。就這樣。開(kāi)箱即用,它們無(wú)法維持跨交互的持久狀態(tài),無(wú)法執(zhí)行代碼,無(wú)法訪問(wèn)實(shí)時(shí)知識(shí),無(wú)法設(shè)置環(huán)境和安裝包來(lái)完成工作。這些都是 harness 層面的功能。LLM 的結(jié)構(gòu)決定了需要某種機(jī)制來(lái)包裝它們,才能做有用的工作。

舉個(gè)例子,要實(shí)現(xiàn)"聊天"這樣的產(chǎn)品體驗(yàn),我們需要把模型包裝在一個(gè) while 循環(huán)中,跟蹤之前的消息并添加新的用戶(hù)消息。讀這篇文章的每個(gè)人都已經(jīng)使用過(guò)這種 harness。關(guān)鍵思想是,我們想把期望的 agent 行為轉(zhuǎn)化為 harness 中的實(shí)際功能。這個(gè)觀點(diǎn)讓我意識(shí)到,harness 工程本質(zhì)上是在彌合"模型能力"和"實(shí)際需求"之間的鴻溝。

Harness 的核心組件

基于 Viv 的分析,我總結(jié)了 harness 必須包含的幾個(gè)核心組件,以及每個(gè)組件存在的理由。

文件系統(tǒng)是最基礎(chǔ)的 harness 原語(yǔ)。我們希望 agent 有持久存儲(chǔ)來(lái)處理真實(shí)數(shù)據(jù)、卸載上下文窗口裝不下的信息、并在會(huì)話(huà)間持久化工作。模型只能直接操作上下文窗口內(nèi)的知識(shí)。在有文件系統(tǒng)之前,用戶(hù)必須復(fù)制粘貼內(nèi)容給模型,這體驗(yàn)很糟糕,而且對(duì)自主 agent 不起作用。世界已經(jīng)在使用文件系統(tǒng)工作,所以模型自然在數(shù)十億個(gè) token 上訓(xùn)練了如何使用它們。自然的解決方案是:harness 配備文件系統(tǒng)抽象和文件操作工具。

文件系統(tǒng)的重要性怎么強(qiáng)調(diào)都不為過(guò)。它讓 agent 有了工作空間來(lái)讀取數(shù)據(jù)、代碼和文檔。工作可以增量添加和卸載,而不是把所有東西都放在上下文中。Agent 可以存儲(chǔ)中間輸出并維護(hù)超越單個(gè)會(huì)話(huà)的狀態(tài)。文件系統(tǒng)還是自然的協(xié)作界面,多個(gè) agent 和人類(lèi)可以通過(guò)共享文件協(xié)調(diào)。Git 為文件系統(tǒng)添加版本控制,這樣 agent 可以跟蹤工作、回滾錯(cuò)誤、分支實(shí)驗(yàn)。

Bash 和代碼執(zhí)行則是通用工具。我們希望 agent 自主解決問(wèn)題,而不需要人類(lèi)預(yù)先設(shè)計(jì)每個(gè)工具。今天主流的 agent 執(zhí)行模式是 ReAct 循環(huán),模型推理、通過(guò)工具調(diào)用采取行動(dòng)、觀察結(jié)果、在 while 循環(huán)中重復(fù)。但 harness 只能執(zhí)行它有邏輯的工具。與其強(qiáng)迫用戶(hù)為每個(gè)可能的動(dòng)作構(gòu)建工具,更好的解決方案是給 agent 一個(gè)通用工具,比如 bash。

Bash 加代碼執(zhí)行是朝著"給模型一臺(tái)計(jì)算機(jī),讓它自己搞定其余部分"邁出的一大步。模型可以通過(guò)代碼即時(shí)設(shè)計(jì)自己的工具,而不是被限制在固定的預(yù)配置工具集中。Harness 仍然配備其他工具,但代碼執(zhí)行已經(jīng)成為自主問(wèn)題解決的默認(rèn)通用策略。我認(rèn)為這是一個(gè)重要的設(shè)計(jì)哲學(xué)轉(zhuǎn)變:從"提供足夠的工具"轉(zhuǎn)向"提供創(chuàng)建工具的能力"。

沙盒和執(zhí)行環(huán)境也必不可少。Agent 需要一個(gè)有正確默認(rèn)設(shè)置的環(huán)境,這樣它們可以安全行動(dòng)、觀察結(jié)果并取得進(jìn)展。我們已經(jīng)給了模型存儲(chǔ)和執(zhí)行代碼的能力,但這一切都需要在某個(gè)地方發(fā)生。在本地運(yùn)行 agent 生成的代碼有風(fēng)險(xiǎn),而且單個(gè)本地環(huán)境無(wú)法擴(kuò)展到大量 agent 工作負(fù)載。

沙盒給 agent 提供安全的操作環(huán)境。Harness 可以連接到沙盒來(lái)運(yùn)行代碼、檢查文件、安裝依賴(lài)并完成任務(wù),而不是在本地執(zhí)行。這創(chuàng)造了代碼的安全隔離執(zhí)行。為了更高安全性,harness 可以白名單命令并強(qiáng)制網(wǎng)絡(luò)隔離。沙盒還能實(shí)現(xiàn)規(guī)模化,因?yàn)榄h(huán)境可以按需創(chuàng)建、分散到多個(gè)任務(wù),工作完成后銷(xiāo)毀。

好的環(huán)境配備好的默認(rèn)工具。Harness 負(fù)責(zé)配置工具,這樣 agent 可以做有用的工作。這包括預(yù)安裝語(yǔ)言運(yùn)行時(shí)和包、用于 git 和測(cè)試的 CLI、用于網(wǎng)頁(yè)交互和驗(yàn)證的瀏覽器。瀏覽器、日志、截圖和測(cè)試運(yùn)行器等工具給 agent 提供了觀察和分析工作的方法。這幫助它們創(chuàng)建自我驗(yàn)證循環(huán),在那里它們可以編寫(xiě)應(yīng)用代碼、運(yùn)行測(cè)試、檢查日志并修復(fù)錯(cuò)誤。

內(nèi)存和搜索用于持續(xù)學(xué)習(xí)。Agent 應(yīng)該記住它們見(jiàn)過(guò)的東西,并訪問(wèn)訓(xùn)練時(shí)不存在的信息。模型除了權(quán)重和當(dāng)前上下文中的內(nèi)容外,沒(méi)有額外知識(shí)。在無(wú)法編輯模型權(quán)重的情況下,"添加知識(shí)"的唯一方法是通過(guò)上下文注入。

對(duì)于內(nèi)存,文件系統(tǒng)再次成為核心原語(yǔ)。Harness 支持像 AGENTS.md 這樣的內(nèi)存文件標(biāo)準(zhǔn),在 agent 啟動(dòng)時(shí)注入上下文。隨著 agent 添加和編輯此文件,harness 將更新后的文件加載到上下文中。這是一種持續(xù)學(xué)習(xí)形式,agent 從一個(gè)會(huì)話(huà)持久存儲(chǔ)知識(shí),并將該知識(shí)注入未來(lái)會(huì)話(huà)。

知識(shí)截止日期意味著模型無(wú)法直接訪問(wèn)新數(shù)據(jù),比如更新的庫(kù)版本,除非用戶(hù)直接提供。對(duì)于最新知識(shí),Web Search 和像 Context7 這樣的 MCP 工具幫助 agent 訪問(wèn)超出知識(shí)截止日期的信息,比如新庫(kù)版本或訓(xùn)練停止時(shí)不存在的當(dāng)前數(shù)據(jù)。

對(duì)抗上下文腐爛也是關(guān)鍵挑戰(zhàn)。Agent 性能不應(yīng)該在工作過(guò)程中降低。上下文腐爛描述的是模型在上下文窗口填滿(mǎn)時(shí)推理和完成任務(wù)的能力變差的現(xiàn)象。上下文是寶貴而稀缺的資源,所以 harness 需要策略來(lái)管理它。今天的 harness 在很大程度上是良好上下文工程的交付機(jī)制。

壓縮解決的是當(dāng)上下文窗口接近填滿(mǎn)時(shí)該怎么辦。沒(méi)有壓縮,當(dāng)對(duì)話(huà)超過(guò)上下文窗口會(huì)發(fā)生什么?一個(gè)選項(xiàng)是 API 報(bào)錯(cuò),這不好。Harness 必須為這種情況使用某種策略。所以壓縮智能地卸載和總結(jié)現(xiàn)有上下文窗口,這樣 agent 可以繼續(xù)工作。

工具調(diào)用卸載幫助減少大型工具輸出的影響,這些輸出可能會(huì)嘈雜地堆滿(mǎn)上下文窗口而不提供有用信息。Harness 保留超過(guò)閾值 token 數(shù)的工具輸出的頭部和尾部 token,并將完整輸出卸載到文件系統(tǒng),這樣模型可以在需要時(shí)訪問(wèn)它。


數(shù)據(jù)說(shuō)話(huà):為什么 Harness 比模型更重要

說(shuō)到這里,我想回到 Himanshu 提供的那些令人震撼的數(shù)據(jù)。這些數(shù)字最有說(shuō)服力地證明了 harness 的重要性。

CORE-Bench 的測(cè)試結(jié)果非常直接。Claude Opus 4.5 在一個(gè)腳手架下得分 42%,換另一個(gè)腳手架后得分 78%。同樣的模型,性能幾乎翻倍。Sonnet 4 的表現(xiàn)是 33% vs 47%。Sonnet 4.5 是 44% vs 62%。這不是小幅改進(jìn),這是質(zhì)的飛躍。唯一的變量是 harness,模型完全相同,基準(zhǔn)測(cè)試完全相同。

Cursor 的懶工具加載將 token 使用量削減了 46.9%。這是一個(gè)具有統(tǒng)計(jì)顯著性的數(shù)字。同樣的任務(wù),同樣的模型,只是改變了工具的加載方式,就能節(jié)省近一半的 token??紤]到 token 成本和處理速度,這種優(yōu)化的商業(yè)價(jià)值是巨大的。

更極端的案例來(lái)自 Vercel。他們刪除了 agent 80% 的工具,結(jié)果 agent 從失敗任務(wù)變成了完成任務(wù)。這個(gè)案例特別有意思,因?yàn)樗魬?zhàn)了我們的直覺(jué)。我們通常認(rèn)為給 agent 更多工具會(huì)讓它更強(qiáng)大,但事實(shí)證明,工具太多反而會(huì)降低性能。Token 從 145463 降到 67483,步驟從 100 降到 19,延遲從 724 秒降到 141 秒。這是全方位的改進(jìn),而改變的只是 harness 設(shè)計(jì)。

LangChain 的 deepagents-cli 在 TerminalBench 2.0 上的表現(xiàn)也很說(shuō)明問(wèn)題。僅通過(guò)改變 harness,分?jǐn)?shù)從 52.8% 提升到 66.5%,提高了 13.7 個(gè)百分點(diǎn)。我反復(fù)強(qiáng)調(diào)這一點(diǎn):模型完全沒(méi)變,只是改變了圍繞模型的腳手架。

這些數(shù)據(jù)讓我重新思考了 AI 行業(yè)的投資方向。我們看到無(wú)數(shù)公司花費(fèi)數(shù)百萬(wàn)甚至數(shù)十億美元訓(xùn)練更大更強(qiáng)的模型,但可能只需要花一小部分精力優(yōu)化 harness,就能獲得同等甚至更好的性能提升。這不是說(shuō)模型不重要,而是說(shuō)我們嚴(yán)重低估了 harness 的價(jià)值。

頂尖公司的 Harness 實(shí)踐

Himanshu 詳細(xì)分析了幾家頂尖公司的 harness 實(shí)現(xiàn),每家都有獨(dú)特的設(shè)計(jì)哲學(xué)。

Claude Code 采用"模型控制循環(huán)"的理念。它是一個(gè)簡(jiǎn)單的 while(tool_call) 循環(huán),沒(méi)有復(fù)雜的 DAG 編排,沒(méi)有競(jìng)爭(zhēng)的 agent 角色。模型接收消息和工具,返回文本結(jié)束循環(huán),返回工具調(diào)用繼續(xù)循環(huán)。Anthropic 明確稱(chēng)之為"模型控制循環(huán)"而不是"代碼控制模型"。這個(gè)微妙的措辭差異體現(xiàn)了設(shè)計(jì)哲學(xué):給模型更大的自主權(quán)。

Claude Code 只提供約 18 個(gè)原始工具,分四類(lèi):命令行發(fā)現(xiàn)、文件交互、網(wǎng)頁(yè)訪問(wèn)和編排。設(shè)計(jì)哲學(xué)是原始工具優(yōu)于集成。更有意思的是,Anthropic 選擇正則表達(dá)式(ripgrep)而不是向量數(shù)據(jù)庫(kù)進(jìn)行代碼搜索,理由是 Claude 的代碼理解能力足夠強(qiáng),可以構(gòu)建復(fù)雜正則表達(dá)式而不需要搜索索引。

Claude Code 還有一個(gè)巧妙設(shè)計(jì):TodoWrite 工具。從功能上講它什么都不做,純粹是 harness 層面的技巧——一個(gè)無(wú)操作工具,強(qiáng)制 agent 明確表達(dá)和跟蹤計(jì)劃,讓它在長(zhǎng)時(shí)間運(yùn)行中保持正軌。這種設(shè)計(jì)讓我想到,有時(shí)候最有效的工具不是執(zhí)行復(fù)雜操作的,而是幫助 agent 保持清晰思路的簡(jiǎn)單機(jī)制。

Cursor 的核心決策是"文件作為基本原語(yǔ)"。為什么?因?yàn)槲募С謴?qiáng)大搜索、可自然分組、可版本化。他們針對(duì)每個(gè)前沿模型專(zhuān)門(mén)調(diào)優(yōu) harness。不同模型得到不同工具名稱(chēng)、提示指令和行為指導(dǎo)。這種精細(xì)化調(diào)優(yōu)讓我意識(shí)到,通用方案往往不是最優(yōu)方案。

Cursor 的自定義語(yǔ)義搜索特別值得一提。他們的嵌入模型使用 agent 會(huì)話(huà)軌跡作為訓(xùn)練數(shù)據(jù)。當(dāng) agent 完成任務(wù)時(shí),Cursor 分析哪些文件本應(yīng)更早被檢索,然后訓(xùn)練嵌入模型匹配這些模式。結(jié)果是搜索準(zhǔn)確率平均提高 12.5%,在大型代碼庫(kù)上的代碼保留率提高 2.6%。這種從實(shí)際使用中學(xué)習(xí)的方法比任何理論優(yōu)化都更有效。

Manus 則走了另一個(gè)極端,從推出以來(lái)已經(jīng)重寫(xiě)了五次框架。他們最獨(dú)特的做法是使用 logit masking 而不是動(dòng)態(tài)移除工具。任何對(duì)上下文前端工具定義的更改都會(huì)使所有后續(xù) token 的 KV-cache 失效。所以所有約 29 個(gè)工具永久加載,每步可用性通過(guò)約束輸出 token 概率控制。

Manus 團(tuán)隊(duì)得出的最大教訓(xùn)是:最大性能提升來(lái)自刪除東西。復(fù)雜工具定義被 shell 執(zhí)行替代,"管理 agent"被簡(jiǎn)單交接替代。如果你的 agent harness 在模型變好的同時(shí)變復(fù)雜,那就出問(wèn)題了。這個(gè)觀點(diǎn)讓我深有感觸,真正的進(jìn)步往往來(lái)自簡(jiǎn)化和精簡(jiǎn)。


Progressive Disclosure:關(guān)鍵但被忽視的模式

Himanshu 特別強(qiáng)調(diào)了 progressive disclosure(漸進(jìn)式披露)這個(gè)概念,我認(rèn)為這是整個(gè) harness 設(shè)計(jì)中最被低估的模式。

Progressive disclosure 借鑒自 UI/UX 設(shè)計(jì),1980 年代起源于 IBM Research 的 John Carroll,1990 年代由 Jakob Nielsen 推廣。核心原則:只顯示現(xiàn)在需要的內(nèi)容,按需揭示復(fù)雜性。這直接映射到 agent 設(shè)計(jì)。就像可折疊菜單減少人類(lèi)認(rèn)知負(fù)荷,分層上下文加載減少 LLM 注意力分散。

數(shù)據(jù)非常有說(shuō)服力。Claude-Mem 文檔顯示,靜態(tài)加載注入 25000 個(gè) token,效率只有 0.8%。Progressive disclosure 只需 955 個(gè) token,效率 100%。這是約 26 倍改進(jìn)。Cursor 的懶加載實(shí)現(xiàn) 46.9% token 削減。Vercel 刪除 80% 工具后,token 從 145463 降到 67483,步驟從 100 降到 19,延遲從 724 秒降到 141 秒,agent 從失敗變成功。

各家公司實(shí)現(xiàn)方式不同但思路一致。Claude Code 的 SKILL.md 模式:技能存儲(chǔ)為 .claude/skills/ 文件,不預(yù)加載到每次對(duì)話(huà)。與每次加載的 CLAUDE.md 不同,技能只在 Claude 檢測(cè)到相關(guān)性時(shí)加載。當(dāng)項(xiàng)目有幾十個(gè)技能時(shí),這防止上下文膨脹。

為什么 progressive disclosure 如此重要?Liu 等人在 TACL 2024 的論文證明,LLM 性能遵循 U 型曲線(xiàn)——相關(guān)信息在輸入開(kāi)頭或結(jié)尾時(shí)性能最高,在中間時(shí)下降。即使長(zhǎng)上下文模型也是如此。這就是為什么 harness 重要:progressive disclosure 保持輸入較小,并將新檢索信息放在末尾。

我的理解是,這從根本上挑戰(zhàn)了"給模型更多上下文總是更好"的假設(shè)。上下文組織方式比數(shù)量更重要。這也解釋了為什么同一模型在不同 harness 下性能差異如此巨大。

Framework 與 Harness 的模糊邊界

Tony 指出,framework 和 harness 的界限并不總是清晰的,而且我認(rèn)為它也不應(yīng)該清晰。

一些 framework 正在添加類(lèi)似 harness 的功能。LangChain 是個(gè)好例子。他們發(fā)布了 Deep Agents,明確稱(chēng)之為"agent harness",位于框架之上。它配備內(nèi)置規(guī)劃工具、用于上下文管理的文件系統(tǒng)訪問(wèn)、子 agent 生成和內(nèi)存持久化。你仍在底層使用 LangChain,但 Deep Agents 給你開(kāi)箱即用的默認(rèn)設(shè)置,這樣你不必自己把所有東西連接起來(lái)。

LangChain 實(shí)際上在自己的技術(shù)棧中區(qū)分了三層。LangChain(原始庫(kù))是 framework。LangGraph 是他們稱(chēng)為"agent runtime"(代理運(yùn)行時(shí))的東西,處理執(zhí)行、狀態(tài)管理和持久性。Deep Agents 是位于兩者之上的 harness。這是一家公司跨越整個(gè)光譜。用于組合 agent 的 framework,用于可靠執(zhí)行的 runtime,用于開(kāi)箱即用的 harness。

這是一家 framework 公司向光譜右側(cè)移動(dòng)。Deep Agents 仍然是模塊化的。你可以交換后端、配置工具、調(diào)整提示。但它給你一個(gè)工作系統(tǒng),不需要你組裝每一塊。

另一方面,harness 也沒(méi)有聽(tīng)起來(lái)那么鎖定。拿 OpenClaw 來(lái)說(shuō),開(kāi)箱即用時(shí)最有觀點(diǎn),但如果你下載源代碼,可以交換實(shí)現(xiàn)。你可以改變內(nèi)存工作方式、調(diào)整 agent 循環(huán)、修改工具處理。只是大多數(shù)人不會(huì)這樣做,因?yàn)槟J(rèn)已經(jīng)工作了。

區(qū)別在于開(kāi)始時(shí)已經(jīng)決定了什么。Harness 配備內(nèi)置決策。Framework 暴露選項(xiàng)。如果使用 harness,你接受大多數(shù)決策并在邊緣配置。如果使用 framework,你自己做決策并組裝系統(tǒng)。


長(zhǎng)時(shí)程自主執(zhí)行的挑戰(zhàn)

Viv 特別強(qiáng)調(diào)了長(zhǎng)時(shí)程自主執(zhí)行的重要性和挑戰(zhàn)。自主軟件創(chuàng)建是編碼 agent 的圣杯,但今天的模型存在早期停止、復(fù)雜問(wèn)題分解困難、以及工作跨越多個(gè)上下文窗口時(shí)的不連貫問(wèn)題。好的 harness 必須圍繞所有這些設(shè)計(jì)。

這正是早期 harness 原語(yǔ)開(kāi)始復(fù)合的地方。長(zhǎng)時(shí)程工作需要持久狀態(tài)、規(guī)劃、觀察和驗(yàn)證,以在多個(gè)上下文窗口間持續(xù)工作。文件系統(tǒng)和 git 用于跨會(huì)話(huà)跟蹤工作。Agent 在長(zhǎng)任務(wù)中產(chǎn)生數(shù)百萬(wàn) token,文件系統(tǒng)持久捕獲工作以隨時(shí)間跟蹤進(jìn)展。添加 git 允許新 agent 快速了解最新工作和項(xiàng)目歷史。對(duì)于多個(gè) agent 協(xié)作,文件系統(tǒng)也充當(dāng)共享工作賬本。

Ralph Loop 是一個(gè)有意思的 harness 模式,用于繼續(xù)工作。它通過(guò)鉤子攔截模型的退出嘗試,在干凈的上下文窗口中重新注入原始提示,強(qiáng)制 agent 針對(duì)完成目標(biāo)繼續(xù)工作。文件系統(tǒng)使這成為可能,因?yàn)槊看蔚鷱男律舷挛拈_(kāi)始但從上一次迭代讀取狀態(tài)。

規(guī)劃和自我驗(yàn)證讓 agent 保持正軌。規(guī)劃是模型將目標(biāo)分解為一系列步驟。Harness 通過(guò)良好提示和注入如何使用文件系統(tǒng)中計(jì)劃文件的提醒來(lái)支持這一點(diǎn)。完成每一步后,agent 從通過(guò)自我驗(yàn)證檢查工作正確性中受益。Harness 中的鉤子可以運(yùn)行預(yù)定義測(cè)試套件,在失敗時(shí)循環(huán)回模型并帶上錯(cuò)誤消息,或者可以提示模型獨(dú)立自我評(píng)估代碼。驗(yàn)證將解決方案建立在測(cè)試上,并為自我改進(jìn)創(chuàng)建反饋信號(hào)。

Harness 的未來(lái)

三位作者都對(duì) harness 的未來(lái)有自己的看法,我覺(jué)得他們的觀點(diǎn)很有啟發(fā)性。

Himanshu 注意到模型訓(xùn)練和 harness 設(shè)計(jì)的耦合。今天的 agent 產(chǎn)品如 Claude Code 和 Codex 在模型后訓(xùn)練時(shí)將 harness 納入循環(huán)。這幫助模型在 harness 設(shè)計(jì)者認(rèn)為它們應(yīng)該原生擅長(zhǎng)的動(dòng)作上改進(jìn),如文件系統(tǒng)操作、bash 執(zhí)行、規(guī)劃或與子 agent 并行工作。

這創(chuàng)造了一個(gè)反饋循環(huán)。有用的原語(yǔ)被發(fā)現(xiàn)、添加到 harness,然后在訓(xùn)練下一代模型時(shí)使用。隨著這個(gè)循環(huán)重復(fù),模型在訓(xùn)練時(shí)所在的 harness 中變得更有能力。但這種共同演化對(duì)泛化有有趣的副作用。它以改變工具邏輯導(dǎo)致模型性能下降的方式表現(xiàn)出來(lái)。一個(gè)真正智能的模型應(yīng)該不難在補(bǔ)丁方法間切換,但在循環(huán)中訓(xùn)練會(huì)創(chuàng)造這種過(guò)擬合。

但這并不意味著對(duì)你任務(wù)最好的 harness 就是模型后訓(xùn)練時(shí)用的那個(gè)。Terminal Bench 2.0 排行榜是個(gè)好例子。Opus 4.6 在 Claude Code 中的得分遠(yuǎn)低于在其他 harness 中的 Opus 4.6。通過(guò)只改變 harness 可以榨取很多價(jià)值。

Viv 認(rèn)為隨著模型變得更有能力,今天存在于 harness 中的一些東西會(huì)被吸收到模型中。模型會(huì)在規(guī)劃、自我驗(yàn)證和長(zhǎng)時(shí)程連貫性上原生變好,因此需要更少的上下文注入。這表明 harness 隨時(shí)間會(huì)變得不那么重要。但就像提示工程今天繼續(xù)有價(jià)值一樣,harness 工程可能會(huì)繼續(xù)對(duì)構(gòu)建好的 agent 有用。

Harness 今天確實(shí)在修補(bǔ)模型缺陷,但它們也圍繞模型智能構(gòu)建系統(tǒng)以使其更有效。配置良好的環(huán)境、正確的工具、持久狀態(tài)和驗(yàn)證循環(huán)讓任何模型更高效,無(wú)論其基礎(chǔ)智能如何。

Viv 提到 harness 工程是 LangChain 用來(lái)改進(jìn)其 harness 構(gòu)建庫(kù) deepagents 的一個(gè)非常活躍的研究領(lǐng)域。一些開(kāi)放和有趣的問(wèn)題包括:編排數(shù)百個(gè) agent 在共享代碼庫(kù)上并行工作;分析自己軌跡以識(shí)別和修復(fù) harness 級(jí)別失敗模式的 agent;根據(jù)給定任務(wù)即時(shí)動(dòng)態(tài)組裝正確工具和上下文而不是預(yù)配置的 harness。

我對(duì) Harness 未來(lái)的思考

讀完這三位作者的分析后,我有一些自己的深度思考。

我認(rèn)為 harness 工程正在成為一門(mén)獨(dú)立的學(xué)科。就像軟件工程從計(jì)算機(jī)科學(xué)中分離出來(lái),成為一個(gè)有自己方法論、最佳實(shí)踐和工具鏈的領(lǐng)域一樣,harness 工程也在經(jīng)歷類(lèi)似的過(guò)程。我們已經(jīng)看到了一些早期信號(hào):專(zhuān)門(mén)的 harness 構(gòu)建庫(kù)(如 LangChain 的 Deep Agents)、harness 設(shè)計(jì)模式的總結(jié)(如 12 Factor Agents)、以及用于評(píng)估 harness 質(zhì)量的基準(zhǔn)測(cè)試(如 CORE-Bench、Terminal Bench)。

這種專(zhuān)業(yè)化很重要,因?yàn)樗档土藰?gòu)建高質(zhì)量 AI agent 的門(mén)檻。當(dāng) harness 工程成為一門(mén)成熟的學(xué)科時(shí),開(kāi)發(fā)者不需要從零開(kāi)始摸索,可以借鑒已驗(yàn)證的模式和最佳實(shí)踐。這會(huì)加速整個(gè)行業(yè)的創(chuàng)新速度。

我也注意到一個(gè)有趣的悖論:雖然模型在變得更強(qiáng)大,但對(duì) harness 的需求不會(huì)消失,只是會(huì)轉(zhuǎn)變形式。早期的 harness 主要是在彌補(bǔ)模型的不足,比如給模型添加文件系統(tǒng)訪問(wèn)、代碼執(zhí)行能力等基礎(chǔ)功能。但隨著這些能力逐漸被模型原生支持,harness 的角色會(huì)從"能力補(bǔ)充"轉(zhuǎn)向"性能優(yōu)化"和"可靠性保證"。

就像現(xiàn)代編程語(yǔ)言已經(jīng)有了垃圾回收、類(lèi)型系統(tǒng)等高級(jí)特性,但我們?nèi)匀恍枰蚣芎蛶?kù)來(lái)構(gòu)建復(fù)雜應(yīng)用一樣,未來(lái)即使模型本身變得非常強(qiáng)大,我們?nèi)匀恍枰?harness 來(lái)優(yōu)化性能、管理復(fù)雜性、確保可靠性。Progressive disclosure、上下文管理、錯(cuò)誤恢復(fù)這些問(wèn)題不會(huì)因?yàn)槟P妥儚?qiáng)而消失。

從商業(yè)角度看,我認(rèn)為 harness 工程能力將成為 AI 公司的核心競(jìng)爭(zhēng)力之一。模型本身正在快速商品化,任何公司都可以通過(guò) API 訪問(wèn)最先進(jìn)的模型。但如何有效利用這些模型、如何設(shè)計(jì)出讓模型發(fā)揮最大效能的系統(tǒng),這才是真正的護(hù)城河。這就像云計(jì)算時(shí)代,底層基礎(chǔ)設(shè)施(AWS、Azure、GCP)是商品,但在這些基礎(chǔ)設(shè)施上構(gòu)建的應(yīng)用和平臺(tái)才是真正的價(jià)值所在。

我還思考了 harness 設(shè)計(jì)的一個(gè)哲學(xué)問(wèn)題:應(yīng)該給模型多大的自主權(quán)?Claude Code 的"模型控制循環(huán)"代表了一個(gè)極端,給模型最大的自由度。而更傳統(tǒng)的方法則傾向于用代碼嚴(yán)格控制 agent 的每一步。我認(rèn)為最佳平衡點(diǎn)會(huì)隨著模型能力的提升而移動(dòng)。當(dāng)模型還比較弱時(shí),需要更多的 harness 級(jí)別控制和約束。但隨著模型變強(qiáng),給它們更多自主權(quán)會(huì)帶來(lái)更好的結(jié)果。這個(gè)平衡點(diǎn)的把握,需要深刻理解模型的能力邊界和任務(wù)的復(fù)雜度。

Tony 提出的"你解決什么問(wèn)題決定你需要 framework 還是 harness"這個(gè)觀點(diǎn)讓我想到,也許我們需要一個(gè)更細(xì)粒度的分類(lèi)。在 framework 和 harness 之間,可能還有很多中間狀態(tài)。比如"可配置的 harness"、"模塊化的 harness"、"領(lǐng)域特定的 harness"等等。未來(lái)可能會(huì)出現(xiàn)更多這樣的中間形態(tài),讓開(kāi)發(fā)者可以根據(jù)具體需求選擇合適的抽象層次。

最后,我想強(qiáng)調(diào) Himanshu 提到的一個(gè)關(guān)鍵洞察:最好的團(tuán)隊(duì)一直在簡(jiǎn)化。Manus 五次重寫(xiě),每次都刪除東西。Anthropic 設(shè)計(jì) Claude Code 是為了隨模型改進(jìn)而縮小。這個(gè)趨勢(shì)告訴我們,harness 工程的終極目標(biāo)不是構(gòu)建一個(gè)功能齊全、無(wú)所不包的系統(tǒng),而是找到最小必要集——那些真正不可或缺、無(wú)法被模型原生能力替代的部分。這需要持續(xù)的迭代、測(cè)試和勇于刪除的決心。

Agent = Model + Harness。這個(gè)簡(jiǎn)單的等式背后,是關(guān)于如何構(gòu)建真正有用的 AI 系統(tǒng)的深刻洞察。模型提供智能,harness 讓智能有用。在追逐更強(qiáng)大模型的同時(shí),我們不應(yīng)該忽視 harness 工程的價(jià)值。因?yàn)樽罱K,沒(méi)有人購(gòu)買(mǎi)引擎,大家購(gòu)買(mǎi)的是完整的汽車(chē)。

結(jié)尾

也歡迎大家留言討論,分享你的觀點(diǎn)!

覺(jué)得內(nèi)容不錯(cuò)的朋友能夠幫忙右下角點(diǎn)個(gè)贊,分享一下。您的每次分享,都是在激勵(lì)我不斷產(chǎn)出更好的內(nèi)容。

歡迎關(guān)注深思圈,一起探索更大的世界。

- END -

兩個(gè)“特別坑”的AI產(chǎn)品創(chuàng)業(yè)方向,你知道嗎


速度將成為AI時(shí)代唯一的護(hù)城河


a16z重磅預(yù)測(cè):Vibe coding贏者通吃?錯(cuò)了,垂直專(zhuān)業(yè)化才是未來(lái)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
NBA戰(zhàn)報(bào):黃蜂122-108森林狼取NBA4連勝,拉梅洛-鮑爾35+3+8

NBA戰(zhàn)報(bào):黃蜂122-108森林狼取NBA4連勝,拉梅洛-鮑爾35+3+8

懂球帝
2026-04-06 09:33:07
如今王楚欽究竟有多強(qiáng)?來(lái)聽(tīng)聽(tīng)勒布倫和達(dá)科的超高評(píng)價(jià)

如今王楚欽究竟有多強(qiáng)?來(lái)聽(tīng)聽(tīng)勒布倫和達(dá)科的超高評(píng)價(jià)

十點(diǎn)街球體育
2026-04-06 00:30:03
否認(rèn)盧甘斯克州全部淪陷!克宮連大學(xué)生都征兵,加速出售黃金儲(chǔ)備

否認(rèn)盧甘斯克州全部淪陷!克宮連大學(xué)生都征兵,加速出售黃金儲(chǔ)備

鷹眼Defence
2026-04-03 16:06:58
別再尬吹顏值!熱巴古偶短板,被《白日提燈》扒得干干凈凈

別再尬吹顏值!熱巴古偶短板,被《白日提燈》扒得干干凈凈

陳意小可愛(ài)
2026-04-05 13:41:39
張雪奪冠賽車(chē)復(fù)刻版開(kāi)拍!網(wǎng)友喊出1300萬(wàn):這車(chē)真比勞斯萊斯值錢(qián)

張雪奪冠賽車(chē)復(fù)刻版開(kāi)拍!網(wǎng)友喊出1300萬(wàn):這車(chē)真比勞斯萊斯值錢(qián)

陳意小可愛(ài)
2026-04-04 08:41:50
吳石犧牲罪魁禍?zhǔn)祝皇枪日囊膊皇遣绦⑶琼旑^上司周至柔

吳石犧牲罪魁禍?zhǔn)祝皇枪日囊膊皇遣绦⑶琼旑^上司周至柔

微史紀(jì)
2026-04-05 14:27:37
美媒終于發(fā)現(xiàn):炸完,伊朗幾小時(shí)就能修好

美媒終于發(fā)現(xiàn):炸完,伊朗幾小時(shí)就能修好

觀察者網(wǎng)
2026-04-05 18:28:08
白銀連環(huán)殺人兇手高承勇:為兒子前途收手,被捕后兒子被單位辭退

白銀連環(huán)殺人兇手高承勇:為兒子前途收手,被捕后兒子被單位辭退

就一點(diǎn)
2026-03-17 16:10:56
新冠后遺癥的長(zhǎng)期侵襲,無(wú)數(shù)人在不知不覺(jué)中深陷困境

新冠后遺癥的長(zhǎng)期侵襲,無(wú)數(shù)人在不知不覺(jué)中深陷困境

律法刑道
2026-04-01 10:15:47
為黃金叛逃臺(tái)灣,陳寶忠駕機(jī)遭朝軍攔截,最終下場(chǎng)悲慘

為黃金叛逃臺(tái)灣,陳寶忠駕機(jī)遭朝軍攔截,最終下場(chǎng)悲慘

磊子講史
2026-03-31 11:28:08
張雪峰猝然離世,妻子李麗婧的選擇,撕開(kāi)了多少女人的生存真相

張雪峰猝然離世,妻子李麗婧的選擇,撕開(kāi)了多少女人的生存真相

青梅侃史啊
2026-04-05 14:39:09
54歲楊鈺瑩近況曝光:定居深圳,每天打理菜園子,生活平淡

54歲楊鈺瑩近況曝光:定居深圳,每天打理菜園子,生活平淡

小徐講八卦
2025-11-17 07:29:28
多地迎入境高峰

多地迎入境高峰

人民網(wǎng)
2026-04-06 09:04:47
原裝進(jìn)口!全時(shí)四驅(qū)SUV,硬派全能王,僅售19.98萬(wàn),放棄坦克300

原裝進(jìn)口!全時(shí)四驅(qū)SUV,硬派全能王,僅售19.98萬(wàn),放棄坦克300

隔壁說(shuō)車(chē)?yán)贤?/span>
2026-04-04 07:00:59
國(guó)家觸發(fā)一級(jí)戰(zhàn)備時(shí),普通人千萬(wàn)要牢記這3條!保命切記別去搶購(gòu)

國(guó)家觸發(fā)一級(jí)戰(zhàn)備時(shí),普通人千萬(wàn)要牢記這3條!保命切記別去搶購(gòu)

健身狂人
2026-04-05 12:39:10
山東男籃拒絕連?。∪?zhàn)勝?gòu)V東宏遠(yuǎn),內(nèi)線(xiàn)優(yōu)勢(shì)明顯,央視直播

山東男籃拒絕連敗!全力戰(zhàn)勝?gòu)V東宏遠(yuǎn),內(nèi)線(xiàn)優(yōu)勢(shì)明顯,央視直播

體壇瞎白話(huà)
2026-04-06 09:08:23
鄭麗文訪陸前夕突生變數(shù),美方信函曝光,局勢(shì)反轉(zhuǎn)有著什么信號(hào)

鄭麗文訪陸前夕突生變數(shù),美方信函曝光,局勢(shì)反轉(zhuǎn)有著什么信號(hào)

小楊侃事
2026-04-06 07:49:07
中國(guó)最吸金的運(yùn)動(dòng)員是誰(shuí)?姚明郭晶晶靠邊站,榜首是個(gè)真大佬!

中國(guó)最吸金的運(yùn)動(dòng)員是誰(shuí)?姚明郭晶晶靠邊站,榜首是個(gè)真大佬!

仰臥撐FTUer
2026-04-05 21:16:04
單賽季獎(jiǎng)金破百萬(wàn)英鎊!趙心童成歷史第三人,旋風(fēng)圓夢(mèng)排名賽六冠

單賽季獎(jiǎng)金破百萬(wàn)英鎊!趙心童成歷史第三人,旋風(fēng)圓夢(mèng)排名賽六冠

世界體壇觀察家
2026-04-06 05:09:34
日本一整形外科醫(yī)生9年內(nèi)趁麻醉對(duì)21名女患者及護(hù)士等實(shí)施性侵或猥褻,受害者包括4名未成年人,被判處有期徒刑25年

日本一整形外科醫(yī)生9年內(nèi)趁麻醉對(duì)21名女患者及護(hù)士等實(shí)施性侵或猥褻,受害者包括4名未成年人,被判處有期徒刑25年

現(xiàn)代快報(bào)
2026-04-05 20:15:03
2026-04-06 10:40:49
深思圈
深思圈
挖掘和深度分析海外最新AI產(chǎn)品,分享實(shí)用出海戰(zhàn)略
212文章數(shù) 10關(guān)注度
往期回顧 全部

科技要聞

前同事被蒸餾成Token,AI能否偷走職場(chǎng)經(jīng)驗(yàn)

頭條要聞

牛彈琴:特朗普兩個(gè)舉動(dòng)很反常 美國(guó)上下都很震驚

頭條要聞

牛彈琴:特朗普兩個(gè)舉動(dòng)很反常 美國(guó)上下都很震驚

體育要聞

CBA最老球員,身價(jià)7500萬(wàn)美元

娛樂(lè)要聞

王燦兮否認(rèn)婆媳不和 曬與杜淳媽合影

財(cái)經(jīng)要聞

118噸!這家央行,大幅拋售黃金!

汽車(chē)要聞

家用SUV沒(méi)駕駛樂(lè)趣?極氪8X第一個(gè)不同意

態(tài)度原創(chuàng)

本地
家居
游戲
健康
數(shù)碼

本地新聞

跟著歌聲游安徽,聽(tīng)古村回響

家居要聞

溫馨多元 愛(ài)的具象化

FC名作《飛龍之拳合集》Steam復(fù)活 經(jīng)典橫版ACT

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

數(shù)碼要聞

未來(lái)人類(lèi)X98W移動(dòng)“工作站”筆記本電腦上線(xiàn)官網(wǎng),4月內(nèi)發(fā)售

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版