這篇文章的思路來(lái)自 Philipp Schmid,由 minghao 推薦https://www.philschmid.de/agent-harness-2026
很多人,會(huì)有這個(gè)體驗(yàn)
有些模型,在排行榜上分?jǐn)?shù)很高,但實(shí)際用起來(lái)經(jīng)常翻車(chē)
問(wèn)個(gè)問(wèn)題還行,讓干活就開(kāi)始犯蠢
原因很簡(jiǎn)單
排行榜測(cè)的是單輪能力,或者幾輪簡(jiǎn)單交互
但真實(shí)場(chǎng)景里,你讓 Agent 跑一個(gè)復(fù)雜任務(wù),可能要調(diào)用幾十上百次工具,跑幾個(gè)小時(shí)
排行榜 1% 的差距,測(cè)不出 50 步之后的差異
這就是「持久性」問(wèn)題
有些模型,可能足夠聰明,一兩次嘗試就能解開(kāi)難題
但跑了一個(gè)小時(shí)后,可能無(wú)法遵循最初的指令,或者在中間步驟的推理出錯(cuò)
怎么解決?
Philipp Schmid 提了一個(gè)概念,叫 Agent Harness
Harness 是什么
Harness 本意是馬具、挽具,引申為「駕馭某物的裝置」
軟件領(lǐng)域最常見(jiàn)的用法是 test harness 測(cè)試框架
Agent Harness 是同樣的思路:
包裹在 AI 模型外層,管理 Agent 長(zhǎng)周期運(yùn)行的基礎(chǔ)設(shè)施層
用計(jì)算機(jī)來(lái)類(lèi)比:
模型是 CPU,提供原始算力
上下文窗口是內(nèi)存,有限的、易失的工作記憶
Agent Harness 是操作系統(tǒng),管理上下文、處理啟動(dòng)流程、提供標(biāo)準(zhǔn)驅(qū)動(dòng)
Agent 是應(yīng)用程序,運(yùn)行在操作系統(tǒng)之上的具體用戶(hù)邏輯
![]()
Philipp Schmid 畫(huà)的示意圖,一目了然
Harness 的層級(jí)比 Agent 框架更高
框架提供的是構(gòu)建模塊,工具接口、Agent 循環(huán)的實(shí)現(xiàn)
Harness 提供的是預(yù)設(shè) Prompt、工具調(diào)用的規(guī)范化處理、生命周期鉤子,以及開(kāi)箱即用的能力,規(guī)劃、文件系統(tǒng)訪問(wèn)、子 Agent 管理
對(duì)開(kāi)發(fā)者來(lái)說(shuō),這意味著可以跳過(guò)「造操作系統(tǒng)」,直接專(zhuān)注于定義 Agent 的獨(dú)特邏輯
目前通用型 Harness 還很少。Claude Code 是這個(gè)品類(lèi)的典型代表,Claude Agent SDK 和 LangChain DeepAgents 也在嘗試標(biāo)準(zhǔn)化
Harness 能做三件事
驗(yàn)證真實(shí)進(jìn)展
新模型頻繁發(fā)布,Harness 讓用戶(hù)能快速測(cè)試最新模型在自己場(chǎng)景下的表現(xiàn),而不是看排行榜猜
釋放模型潛力
沒(méi)有 Harness,用戶(hù)體驗(yàn)可能落后于模型能力。好的 Harness 讓開(kāi)發(fā)者能用經(jīng)過(guò)驗(yàn)證的工具和最佳實(shí)踐來(lái)構(gòu)建 Agent
創(chuàng)造反饋閉環(huán)
Harness 把模糊的、多步驟的 Agent 工作流轉(zhuǎn)化為可記錄、可評(píng)分的結(jié)構(gòu)化數(shù)據(jù)。哪一步出了問(wèn)題,一目了然
苦澀教訓(xùn)
Rich Sutton 寫(xiě)過(guò)一篇文章叫《苦澀的教訓(xùn)》
核心觀點(diǎn):利用算力的通用方法,每次都能打敗手工編碼的人類(lèi)知識(shí)
這個(gè)教訓(xùn)正在 Agent 開(kāi)發(fā)領(lǐng)域上演
Manus 在六個(gè)月內(nèi)重構(gòu)了五次 Harness,去除僵化的假設(shè)
LangChain 一年內(nèi)重新架構(gòu)了三次「Open Deep Research」Agent
Vercel 砍掉了 80% 的 Agent 工具,換來(lái)更少的步驟、更少的 Token、更快的響應(yīng)
每次新模型發(fā)布,都有不同的最優(yōu) Agent 架構(gòu)方式
2024 年需要復(fù)雜手工流水線的能力,到 2026 年可能只需要一個(gè)上下文窗口內(nèi)的 Prompt 就能搞定
如果過(guò)度設(shè)計(jì)控制流,下一次模型更新就會(huì)讓系統(tǒng)崩潰
怎么做
至于該怎么做,原作者給到了三條原則:
從簡(jiǎn)單開(kāi)始
不要構(gòu)建龐大的控制流。提供健壯的原子工具,讓模型自己規(guī)劃。實(shí)現(xiàn)護(hù)欄、重試和驗(yàn)證
為刪除而構(gòu)建
讓架構(gòu)模塊化。新模型會(huì)替代你的邏輯,必須隨時(shí)準(zhǔn)備好撕掉代碼
Harness 就是數(shù)據(jù)集
競(jìng)爭(zhēng)優(yōu)勢(shì)不再是 Prompt,而是 Harness 捕獲的軌跡數(shù)據(jù)。每一次 Agent 在工作流后期未能遵循指令的失敗案例,都可以用來(lái)訓(xùn)練下一代模型
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.