網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

一些大模型，高分低能，為何？

2026-01-06 17:25:38　來(lái)源: 賽博禪心

北京舉報(bào)

分享至

這篇文章的思路來(lái)自 Philipp Schmid，由 minghao 推薦
https://www.philschmid.de/agent-harness-2026

很多人，會(huì)有這個(gè)體驗(yàn)
有些模型，在排行榜上分?jǐn)?shù)很高，但實(shí)際用起來(lái)經(jīng)常翻車(chē)
問(wèn)個(gè)問(wèn)題還行，讓干活就開(kāi)始犯蠢

原因很簡(jiǎn)單

排行榜測(cè)的是單輪能力，或者幾輪簡(jiǎn)單交互

但真實(shí)場(chǎng)景里，你讓 Agent 跑一個(gè)復(fù)雜任務(wù)，可能要調(diào)用幾十上百次工具，跑幾個(gè)小時(shí)

排行榜 1% 的差距，測(cè)不出 50 步之后的差異

這就是「持久性」問(wèn)題

有些模型，可能足夠聰明，一兩次嘗試就能解開(kāi)難題
但跑了一個(gè)小時(shí)后，可能無(wú)法遵循最初的指令，或者在中間步驟的推理出錯(cuò)

怎么解決？
Philipp Schmid 提了一個(gè)概念，叫 Agent Harness

Harness 是什么

Harness 本意是馬具、挽具，引申為「駕馭某物的裝置」

軟件領(lǐng)域最常見(jiàn)的用法是 test harness 測(cè)試框架

Agent Harness 是同樣的思路：
包裹在 AI 模型外層，管理 Agent 長(zhǎng)周期運(yùn)行的基礎(chǔ)設(shè)施層

用計(jì)算機(jī)來(lái)類(lèi)比：

模型是 CPU，提供原始算力

上下文窗口是內(nèi)存，有限的、易失的工作記憶

Agent Harness 是操作系統(tǒng)，管理上下文、處理啟動(dòng)流程、提供標(biāo)準(zhǔn)驅(qū)動(dòng)

Agent 是應(yīng)用程序，運(yùn)行在操作系統(tǒng)之上的具體用戶(hù)邏輯

Philipp Schmid 畫(huà)的示意圖，一目了然

Harness 的層級(jí)比 Agent 框架更高

框架提供的是構(gòu)建模塊，工具接口、Agent 循環(huán)的實(shí)現(xiàn)

Harness 提供的是預(yù)設(shè) Prompt、工具調(diào)用的規(guī)范化處理、生命周期鉤子，以及開(kāi)箱即用的能力，規(guī)劃、文件系統(tǒng)訪問(wèn)、子 Agent 管理

對(duì)開(kāi)發(fā)者來(lái)說(shuō)，這意味著可以跳過(guò)「造操作系統(tǒng)」，直接專(zhuān)注于定義 Agent 的獨(dú)特邏輯

目前通用型 Harness 還很少。Claude Code 是這個(gè)品類(lèi)的典型代表，Claude Agent SDK 和 LangChain DeepAgents 也在嘗試標(biāo)準(zhǔn)化

Harness 能做三件事

驗(yàn)證真實(shí)進(jìn)展
新模型頻繁發(fā)布，Harness 讓用戶(hù)能快速測(cè)試最新模型在自己場(chǎng)景下的表現(xiàn)，而不是看排行榜猜

釋放模型潛力
沒(méi)有 Harness，用戶(hù)體驗(yàn)可能落后于模型能力。好的 Harness 讓開(kāi)發(fā)者能用經(jīng)過(guò)驗(yàn)證的工具和最佳實(shí)踐來(lái)構(gòu)建 Agent

創(chuàng)造反饋閉環(huán)
Harness 把模糊的、多步驟的 Agent 工作流轉(zhuǎn)化為可記錄、可評(píng)分的結(jié)構(gòu)化數(shù)據(jù)。哪一步出了問(wèn)題，一目了然

苦澀教訓(xùn)

Rich Sutton 寫(xiě)過(guò)一篇文章叫《苦澀的教訓(xùn)》

核心觀點(diǎn)：利用算力的通用方法，每次都能打敗手工編碼的人類(lèi)知識(shí)

這個(gè)教訓(xùn)正在 Agent 開(kāi)發(fā)領(lǐng)域上演

Manus 在六個(gè)月內(nèi)重構(gòu)了五次 Harness，去除僵化的假設(shè)

LangChain 一年內(nèi)重新架構(gòu)了三次「Open Deep Research」Agent

Vercel 砍掉了 80% 的 Agent 工具，換來(lái)更少的步驟、更少的 Token、更快的響應(yīng)

每次新模型發(fā)布，都有不同的最優(yōu) Agent 架構(gòu)方式

2024 年需要復(fù)雜手工流水線的能力，到 2026 年可能只需要一個(gè)上下文窗口內(nèi)的 Prompt 就能搞定

如果過(guò)度設(shè)計(jì)控制流，下一次模型更新就會(huì)讓系統(tǒng)崩潰

怎么做

至于該怎么做，原作者給到了三條原則：

從簡(jiǎn)單開(kāi)始
不要構(gòu)建龐大的控制流。提供健壯的原子工具，讓模型自己規(guī)劃。實(shí)現(xiàn)護(hù)欄、重試和驗(yàn)證

為刪除而構(gòu)建
讓架構(gòu)模塊化。新模型會(huì)替代你的邏輯，必須隨時(shí)準(zhǔn)備好撕掉代碼

Harness 就是數(shù)據(jù)集
競(jìng)爭(zhēng)優(yōu)勢(shì)不再是 Prompt，而是 Harness 捕獲的軌跡數(shù)據(jù)。每一次 Agent 在工作流后期未能遵循指令的失敗案例，都可以用來(lái)訓(xùn)練下一代模型

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

Cursor自研模型反超Opus 4.6！價(jià)格腳踝斬，氛圍編程沸騰了

量子位 2026-03-20 12:07:45
8 跟貼 8
搞不懂Skills？看看Claude Code內(nèi)部工程師們是怎么玩的

機(jī)器之心Pro 2026-03-20 14:21:04
3 跟貼 3

AWE2026專(zhuān)題總結(jié)欄目上線！悟空10分鐘生成，歡迎訪問(wèn)

雷科技 2026-03-20 11:54:56
0 跟貼 0

從能力到商品：Skills市場(chǎng)正在重塑開(kāi)發(fā)者的生產(chǎn)方式

36氪 2026-03-20 10:24:05
19 跟貼 19
從經(jīng)歷到知識(shí)：UIUC、清華PlugMem如何重構(gòu)Agent記憶

新智元 2026-03-21 19:19:12
0 跟貼 0

找伴侶和做投資，邏輯一模一樣

光輝視角 2026-03-19 14:03:44
1 跟貼 1

達(dá)利歐：霍爾木茲海峽大決戰(zhàn)即將爆發(fā)

極目新聞 2026-03-21 16:52:14
31055 跟貼 31055
一只龍蝦好養(yǎng)，那如果是1000只呢？

鈦媒體APP 2026-03-19 10:32:07
0 跟貼 0

MoGraphGPT：基于模塊化大模型與圖形控制的2D交互場(chǎng)景創(chuàng)作

機(jī)器之心Pro 2026-03-20 17:17:16
0 跟貼 0
AI三巨頭72小時(shí)狂掃桌面Agent！OpenAI三合一，谷歌秘測(cè)Mac版

新智元 2026-03-20 21:23:57
2 跟貼 2
企業(yè)軟件里的兩種世界觀，造出了不同的Agent

鈦媒體APP 2026-03-20 19:56:16
0 跟貼 0
男子帶狗狗乘坐竹筏，結(jié)果狗狗把撐竹筏的竹子丟水里了

南陽(yáng)日?qǐng)?bào) 2026-03-21 19:45:42
26 跟貼 26
模型飛機(jī)試飛，鏡頭一轉(zhuǎn)發(fā)現(xiàn)事不簡(jiǎn)單，美女吃了熊心豹子膽

美妙一籮筐 2026-03-20 11:43:33
0 跟貼 0
Cursor自研新模型反超 Opus 4.6，主打“價(jià)格打一折”，網(wǎng)友群嘲“Kimi 2.5套殼”，馬斯克認(rèn)證

華爾街見(jiàn)聞官方 2026-03-21 13:35:08
13 跟貼 13
北郵00后UP主，早在2023年初就開(kāi)發(fā)出了「龍蝦」！

新智元 2026-03-22 10:00:51
0 跟貼 0
別再搗鼓沒(méi)用的龍蝦了，目前 AI Agent 最好的落地容器，是汽車(chē)

愛(ài)范兒 2026-03-22 10:17:47
0 跟貼 0
普遍漲價(jià)5000，新一代SU7只漲4000，2026新車(chē)定價(jià)的深層邏輯

路咖汽車(chē) 2026-03-20 17:15:15
0 跟貼 0
六大應(yīng)用場(chǎng)景全面爆發(fā)，地理空間智能從「眼睛」變「大腦」

機(jī)器之心Pro 2026-03-20 19:18:41
0 跟貼 0
85后花20萬(wàn)租下農(nóng)村老宅20年，用50萬(wàn)打造理想的院子，一家三口從城市搬進(jìn)鄉(xiāng)村：與其花大價(jià)錢(qián)買(mǎi)學(xué)區(qū)房，不如在鄉(xiāng)村給孩子更開(kāi)闊的成長(zhǎng)空間

大風(fēng)新聞 2026-03-21 11:27:04
3618 跟貼 3618
天演架構(gòu)2.0進(jìn)階東風(fēng)日產(chǎn)NX8預(yù)售開(kāi)啟

林林Go 2026-03-22 03:23:44
1 跟貼 1
專(zhuān)訪OpenAI首席科學(xué)家：我們離“AI自己做研究”有多遠(yuǎn)？

DeepTech深科技 2026-03-21 22:57:35
0 跟貼 0
智己汽車(chē)發(fā)布AI超級(jí)智能體“IM Ultra Agent”

界面新聞 2026-03-19 19:00:08
0 跟貼 0
想玩機(jī)械模型？這個(gè)能發(fā)動(dòng)！#金屬拼裝 #V12發(fā)動(dòng)機(jī)

制造科技 2026-03-19 23:00:29
0 跟貼 0
上海百年老店官宣閉店！曾經(jīng)去吃頓飯可要一大早就排長(zhǎng)隊(duì)，承載了幾代人的記憶，不少阿姨爺叔的“第一次”

上觀新聞 2026-03-18 17:41:49
919 跟貼 919
“你已進(jìn)入艷遇高發(fā)地”，河南項(xiàng)城知名商場(chǎng)內(nèi)現(xiàn)不雅標(biāo)語(yǔ)，當(dāng)?shù)厥袌?chǎng)監(jiān)管局回應(yīng)：商場(chǎng)已自行撤下該廣告牌

哈爾濱日?qǐng)?bào) 2026-03-21 14:17:00
552 跟貼 552
Rabbit又行了？油管大V改口，將發(fā)第二款A(yù)I硬件

鈦媒體APP 2026-03-21 15:54:59
0 跟貼 0
男子講他的手辦模型都是幾十塊買(mǎi)的，于是老婆用豆包詢(xún)問(wèn)價(jià)錢(qián)，網(wǎng)友：最后豆包還回一句“差不多”

重慶科教融媒體 2026-03-21 12:20:29
20 跟貼 20
AI錄音卡也有“龍蝦能力”了！紀(jì)要報(bào)告PPT一體生成

智東西 2026-03-20 20:20:32
0 跟貼 0
熱搜第一！山姆回應(yīng)“冷鮮豬肉數(shù)月前屠宰”！網(wǎng)友：今年會(huì)費(fèi)剛續(xù)完

北京商報(bào) 2026-03-21 12:06:17
2600 跟貼 2600
發(fā)令槍已響！38號(hào)文件一聲令下，中國(guó)樓市進(jìn)入新時(shí)代

隨風(fēng) 2026-03-21 03:12:38
16 跟貼 16
重要變化！新西蘭將推數(shù)字駕照、數(shù)字錢(qián)包！證件全面電子化！“實(shí)體駕照仍可用！”年中或完成立法！

新西蘭天維網(wǎng) 2026-03-22 08:06:22
0 跟貼 0
一次性講清楚佛教的神仙體系，佛教權(quán)力架構(gòu)圖

隨風(fēng) 2026-03-19 06:32:48
0 跟貼 0
3月21日（報(bào)道時(shí)間），安徽亳州。奶奶出門(mén)被一歲寶寶不小心把門(mén)關(guān)上，奶奶被關(guān)外邊著急叫開(kāi)鎖公司，寶寶

中安在線 2026-03-21 10:30:28
105 跟貼 105
15個(gè)水餃只賣(mài)5元！廣州一水餃店生意火爆：人均消費(fèi)8元，客人實(shí)測(cè)“個(gè)頭正常味道還可以”

極目新聞 2026-03-17 18:24:48
916 跟貼 916
“A88888”！貴州一車(chē)行銷(xiāo)售幫客戶(hù)搖號(hào)搖出頂級(jí)五連“豹子號(hào)”，本人回應(yīng)：純屬運(yùn)氣到了

大象新聞 2026-03-21 18:45:02
37 跟貼 37
漲價(jià)！浙江姑娘腸子悔青，去年沒(méi)下單今年貴5000元！老板：可能還要漲

浙江之聲 2026-03-20 13:26:35
444 跟貼 444
山東省人民政府關(guān)于免去陳克正職務(wù)的通知

山東省人民政府網(wǎng)站 2026-03-22 08:13:00
0 跟貼 0
江蘇女排金局絕殺天津女排，將與上海女排爭(zhēng)奪排超冠軍

上觀新聞 2026-03-22 04:25:21
55 跟貼 55
羽毛球降價(jià)了，年輕人卻跑了

極目新聞 2026-03-21 16:42:28
64 跟貼 64
行業(yè)最大規(guī)模具身數(shù)據(jù)集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

一些大模型，高分低能，為何？

庫(kù)克在華這四天，一場(chǎng)既定的市場(chǎng)秀

男子在壺口瀑布外拍視頻喊"門(mén)口要錢(qián)"被投訴 景區(qū)回應(yīng)

男子在壺口瀑布外拍視頻喊"門(mén)口要錢(qián)"被投訴 景區(qū)回應(yīng)

誰(shuí)在決定字母哥未來(lái)？

田栩?qū)幗K于涼了？出軌風(fēng)波影響惡劣

睡夢(mèng)中欠債1.2萬(wàn)？這只“蝦”殺瘋了

小鵬汽車(chē)2025年Q4盈利凈賺3.8億 全年?duì)I收767億

態(tài)度原創(chuàng)

孩子們的信，是我收到過(guò)最好的“演講反饋”

這些才是適合普通人借鑒的穿搭！衣服疊穿、多穿襯衫，好耐看

時(shí)空交織 空間綺夢(mèng)

全城狂送1000杯咖啡！網(wǎng)易房產(chǎn)【早C計(jì)劃】，即刻啟動(dòng)！

春色滿城關(guān)不住｜紹興春日頂流，這片櫻花海藏不住了

男子在壺口瀑布外拍視頻喊"門(mén)口要錢(qián)"被投訴景區(qū)回應(yīng)

男子在壺口瀑布外拍視頻喊"門(mén)口要錢(qián)"被投訴景區(qū)回應(yīng)

小鵬汽車(chē)2025年Q4盈利凈賺3.8億全年?duì)I收767億

時(shí)空交織空間綺夢(mèng)