網易首頁 > 網易號 > 正文申請入駐

Meta-Harness讓Haiku性能狂飆，甚至追平Opus！

2026-04-04 20:02:38　來源: 新智元

北京舉報

分享至

新智元報道

編輯：傾傾

【新智元導讀】如果未來的某天，AI智能體可以給自己調參數，修bug，會發生什么？

就在這兩天，斯坦福IRIS Lab的博士生Yoonho Lee聯合MIT、威斯康星大學的研究者放出一篇新論文，把AI智能體優化的邏輯翻了個個兒。

作者陣容十分豪華。導師是機器人學習明星學者Chelsea Finn，合作者里還有DSPy框架作者Omar Khattab。

曾經，大家卷模型本身的參數量、訓練數據、RLHF。但Meta-Harness另辟蹊徑：支撐模型運行的那層「腳手架」同樣決定生死。

這些東西以前全靠人工調。現在，Meta-Harness讓AI自己來干這活。

結果十分完美：Claude Haiku 4.5的成功率達到37.6%，登頂所有Haiku智能體榜首；Claude Opus 4.6更是達到76.4%，僅次于榜一ForgeCode。

模型是商品，Harness決定成敗

harness指的是一整套基礎設施：系統提示詞、工具定義、重試邏輯、上下文管理、子代理協調、生命周期鉤子。

模型本身只是個大腦，harness才是讓這個大腦能干活的身體。

這個概念在2026年突然爆火，業界終于意識到，同一個模型，換個harness，性能差距可以大到離譜。

2月，工程師Can B?lük做了個實驗。

他只改編輯格式，不動模型，15個LLM的編碼性能提升了5到14個百分點，輸出token還減少了約20%。

更夸張的是，GPT-4 Turbo僅僅換了一種編輯格式，準確率就從26%飆升到59%。

同樣的模型，性能差了一倍多，唯一變量是harness。

Agent = Model + Harness，成了最熱門的趨勢

模型提供智能，harness讓智能變得有用。

Claude Code、Codex在做同一件事：精心設計harness來彌補模型的短板。

那么問題來了，harness工程目前高度依賴人工。

工程師得手動寫提示詞、調工具接口、設計重試策略，然后跑測試、看日志、猜哪里出了問題、改代碼、再跑測試。

這個循環費時費力，而且很多失敗模式根本不是人能輕易診斷的。

Meta-Harness想做的，就是把這個循環自動化。

400倍信息量：AI自己「復盤+迭代」

Meta-Harness嘗試著給優化器看更多東西。聽起來簡單，但這恰恰是過去所有方法的瓶頸。

論文這張對比表，列出了主流文本每一步能看到多少上下文：

Meta-Harness 與主流優化方法的上下文觀察量對比。

Self-Refine只看最近一次輸出加自我批評，大約1000 token；

OPRO看過去幾輪的方案和分數，大約2000 token；

TextGrad、AlphaEvolve、GEPA這些更先進的方法，也就在8000到26000 token之間。

Meta-Harness呢？最高1000萬token，差距是400倍。

為什么需要這么多？因為harness工程產生的失敗模式，往往藏在執行軌跡的細節里。

一個任務跑失敗了，原因可能是十步之前的某個工具調用返回了截斷的輸出，導致后續推理全歪。

如果優化器只能看到一個「失敗」的標量分數，或者一段壓縮過的摘要，它根本沒法定位問題。

Meta-Harness的做法，是給proposer一個完整的文件系統。

這個文件系統里裝著所有歷史候選harness的源代碼、每一輪的執行軌跡、命令日志、錯誤信息、超時行為、評分結果。

Proposer可以用grep、cat這些標準工具自己去翻，想看哪個文件就看哪個，想搜哪個關鍵詞就搜哪個。

優化器不再是在固定prompt上做推理，而是一個會檢索信息、瀏覽歷史、編輯代碼的代理。

proposer用的是Claude Code，它不需要被喂壓縮過的信息，它有能力自己決定看什么、怎么看。

整個搜索循環很直白：

Proposer讀取文件系統里的歷史記錄
分析哪些任務失敗了、失敗原因是什么
針對性地重寫harness代碼
新harness跑測試，結果寫回文件系統
循環繼續

Meta-Harness 核心優化閉環示意圖。Proposer 從“包含全部歷史經驗”的文件系統讀取完整軌跡（①），提出新的 Harness 代碼 → 結合 LLM 執行任務并評估（②）→ 將 Proposed Code、Reasoning Traces、Eval Score 等全部日志存回文件系統（③），實現自我迭代。

論文展示了一個19任務子集上的搜索過程。

從Terminus-KIRA基線的28.5%起步，到第7輪迭代就漲到了46.5%。

Meta-Harness 在 19 任務子集上的迭代優化過程。從 Terminus-KIRA 基線 28.5% 的成功率起步，第 7 輪迭代達到 46.5%，展示了通過完整執行軌跡診斷實現的高效 harness 優化。

每一輪都基于具體的執行軌跡做「反事實診斷」——如果我當時這樣處理，結果會不會不一樣？

舉個例子，第7輪的改進是在第一次LLM調用之前先跑一條shell命令，把環境依賴信息注入到初始prompt里。

加一條命令，省掉無謂的試錯。這種程度的診斷精度，靠壓縮摘要是做不到的。

89個任務，小模型登頂

Meta-Harness分了三個場景做了測試：文本分類、數學推理、代碼代理。

代碼代理用的基準是TerminalBench-2，它包含89個Docker化任務，覆蓋代碼翻譯、分布式機器學習配置、系統編程、生物信息學、密碼分析等領域。

每個任務都是二元評分，跑5次取平均，難度相當高。

因為它們需要長程自主執行、處理復雜依賴、應對截斷的終端輸出，還得有相當的領域知識。

這個基準被幾乎所有主流前沿實驗室用來衡量代碼代理的實際能力，是繼SWE-bench之后又一個被廣泛認可的「真實工作」測試集。

Meta-Harness的做法是優化完整的編碼harness，包括系統提示詞、工具定義、完成檢測邏輯、上下文管理，全部都在優化范圍內。

Proposer會讀取每個任務的執行軌跡，診斷失敗模式，然后提出針對性修復。

結果，Claude Haiku 4.5的成功率達到37.6%，在所有Haiku 4.5代理中排名第一，超過第二名Goose的35.5%

Claude Opus 4.6的成功率高達76.4%，在所有Opus 4.6代理中排名第二，僅次于ForgeCode的81.8%

需要強調的是，Haiku是Claude系列里最輕量的版本，參數量遠小于Opus。

傳統思路下，小模型就是不如大模型，性能天花板是硬傷。

但Meta-Harness證明，通過優化harness，小模型的天花板可以被顯著抬高。

Meta-Harness 端到端優化結果總結。（左）在文本分類任務上，Meta-Harness 以極少的評估次數就超越了 ACE、OpenEvolve 等先前方法；（右）在 TerminalBench-2 基準上，Meta-Harness 優化的 Claude Haiku 4.5 harness 達到 37.6% 通過率，超越所有已報道的 Haiku 4.5 harness（包括 Goose 35.5% 和 Terminus-KIRA 33.7%），實現小模型登頂。

不止代碼：文本分類和數學推理同樣有效

Meta-Harness不只在代碼任務上管用。

在文本分類場景下，研究者用了三個數據集：LawBench（215個類別）、Symptom2Disease（22個類別）、USPTO-50k（180個類別），模型是GPT-OSS-120B。

跑了20輪進化迭代，每輪2個候選，總共產出40個候選harness。

最佳發現的harness在測試集上達到48.6%準確率，比之前的SOTA方法ACE高出7.7個百分點。

甚至它的成本更低——Meta-Harness只用了45.5K上下文token，而ACE用了203K。

Meta-Harness 在文本分類任務上的表現。

研究者還做了直接對比實驗，把Meta-Harness和兩個代表性的程序搜索方法放在一起，給同樣的proposer和評估預算。

結果是，Meta-Harness用十分之一的評估次數就追平了它們的最終準確率，而最終準確率還比它們高出10個百分點以上。

Harness Optimizer 搜索進度對比。Meta-Harness（紅色曲線）在極少的 Harness Evaluations 下快速達到最高性能，顯著優于 OpenEvolve、TTTDiscover、ACE 等方法，展現了完整執行軌跡帶來的效率優勢。

原因就是OpenEvolve和PUCT都把歷史壓縮成固定的prompt格式，丟掉了執行軌跡。Meta-Harness保留了一切。

在數學推理場景下，Meta-Harness搜索的是檢索增強的推理策略。

語料庫里有超過50萬道題，來自8個開源數據集。

研究者在250道題的搜索集上進化出一個檢索harness，然后在200道IMO級別的題目上測試，還額外用了5個搜索時從未見過的模型。

單一發現的檢索harness在5個新模型上平均提升了4.7個百分點（從34.1%到38.8%），而且是在模型不變的情況下。

Meta-Harness 檢索策略的跨模型遷移能力。

這說明Meta-Harness發現的策略是可遷移的，不是只對特定模型有效的過擬合技巧。

模型能力的競爭正在進入一個新階段。

過去幾年，前沿實驗室比的是誰的模型更強、參數更多、訓練數據更大、benchmark分數更高。

但現在，GPT-5、Claude 4、Gemini 3在很多任務上已經拉不開太大差距。

真正的差距在哪里？在harness。

同一個模型，配上不同的harness，性能可以差一倍。

而harness工程目前還高度依賴人工經驗，沒有系統化的方法論，也沒有自動化的工具。

模型是智能的來源，harness是智能的放大器，而現在，優化harness本身也可以交給AI來做。

這可能是LLM應用開發進入下一階段的標志。

參考資料：

https://x.com/yoonholeee/status/2038640635482456118

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.