以天為單位革新的AI圈，Harness早已不算什么新詞

2026-03-30 16:49:28　來源: 開源中國

廣東舉報

分享至

2026年2月，OpenAI 在官方博客發(fā)表了一篇名為《Harness Engineering: Leveraging Codex in an Agent-First World》的文章。核心內(nèi)容只有一件事：一個三人工程師小組，用五個月時間，完全依靠 AI Agent 交付了約 100 萬行代碼、1500 個 Pull Request，全程沒有任何人手動寫過一行代碼。

數(shù)字本身并不稀奇，真正值得關(guān)注的是這件事發(fā)生的時間節(jié)點，以及它背后折射出來的工程范式轉(zhuǎn)變。

三個人，五個月，一個不成文的規(guī)定

2025年8月，OpenAI 內(nèi)部一個三人小組承接了一個新產(chǎn)品開發(fā)任務(wù)。他們給自己設(shè)了一條規(guī)則：所有代碼必須由 Codex AI Agent 生成，人類工程師不動鍵盤寫代碼。

五個月后，產(chǎn)品上線。代碼庫約 100 萬行，人均每天合并 3.5 個 Pull Request。Martin Fowler 在評價這項實驗時說：“Harness Engineering 包含了上下文工程、架構(gòu)約束和垃圾回收，是對 AI 賦能軟件開發(fā)的一種有價值的框架性闡述。”

這個實驗之所以值得關(guān)注，不是因為它證明了 AI 能寫代碼——這一點早已無需證明——而是因為它回答了一個更具體的問題：當(dāng) AI 真的可以承擔(dān)大部分編碼工作時，工程師究竟該做什么？

“駕馭”是什么意思

Harness，在英文里本義是馬具、挽具——不是讓你騎馬，而是讓馬老老實實拉車。OpenAI 用這個詞，是在描述一種特定的工程師角色：不再生產(chǎn)代碼，而是設(shè)計一個讓 AI 能把事做對的環(huán)境。

這和“Prompt Engineering”有本質(zhì)區(qū)別。寫提示詞是告訴 AI 怎么做這件事；Harness Engineering 是提前把“這件事的上下文、約束和驗證方式”設(shè)計成 AI 可以理解的結(jié)構(gòu)，讓它在這個環(huán)境里自主運行。

三人團(tuán)隊的核心實踐可以拆成幾個具體動作：

他們寫了一份叫 AGENTS.md 的文檔，只有 100 行。這不是使用手冊，而是索引——里面存的是架構(gòu)圖、設(shè)計規(guī)范和執(zhí)行計劃的入口，類似代碼庫的 README，但服務(wù)對象是 Agent 而不是人類。規(guī)則很嚴(yán)格：關(guān)鍵知識只能活在代碼庫里，禁止散落在 Slack 消息或口口相傳的討論里。

他們給 Agent 裝上了眼睛。通過集成 Chrome DevTools，Agent 可以自己截圖驗證 UI 渲染結(jié)果，不需要人類反復(fù)確認(rèn)頁面對不對。Agent 寫完代碼、運行測試、看截圖、發(fā)現(xiàn)問題、自己修，形成一個閉環(huán)。

他們刻意選擇“無聊”的技術(shù)棧。這條實踐看起來反直覺，但邏輯很清晰：訓(xùn)練數(shù)據(jù)里出現(xiàn)越多的庫和框架，Codex 對它的理解就越準(zhǔn)確，出錯率越低。用冷門的新庫，等于讓 AI 在沒有地圖的地方開車。

還有一個被他們稱為“垃圾回收”的機(jī)制：后臺運行一個周期性 Agent，定期掃描代碼庫里的技術(shù)債——過時的依賴、被注釋的死代碼、違反架構(gòu)約束的模塊——自動提交修復(fù) PR。人類工程師不需要主動觸發(fā)這件事，它就在那里自動跑著。

Cursor 的對照實驗

幾乎在同一時期，Cursor 團(tuán)隊做了一個更極端的實驗：用數(shù)百個 Agent 并行運行整整一周，從零開始用 Rust 寫一個瀏覽器引擎，最終產(chǎn)出超過 100 萬行代碼。

這個實驗一開始并不順利。第一版架構(gòu)讓所有 Agent 地位平等，通過共享狀態(tài)文件協(xié)調(diào)工作。結(jié)果 20 個 Agent 的吞吐量退化到相當(dāng)于 1 至 3 個 Agent。原因是典型的“風(fēng)險厭惡”：在沒有明確分工的情況下，每個 Agent 都傾向于只做安全的小修改，真正復(fù)雜的任務(wù)沒有人敢碰。

后來他們試過流水線（Planner-Executor-Worker-Judge），又試過讓 Executor 同時承擔(dān)規(guī)劃職能——每次都有改進(jìn)，也有新的瓶頸。最終跑通的方案是“遞歸 Planner 加獨立 Worker”：根 Planner 持有全局視野，當(dāng)任務(wù)可以繼續(xù)分解時遞歸生成子 Planner；每個 Worker 只接觸自己負(fù)責(zé)的那份代碼副本，互不感知，完成后提交交接報告。

Cursor 自己總結(jié)這個實驗的核心發(fā)現(xiàn)時說：高吞吐量 Agent 開發(fā)需要接受“不完美但快速迭代”的哲學(xué)，而不是追求一次性完美。允許一個穩(wěn)定的低錯誤率，讓后續(xù) Agent 快速修復(fù)，反而比強(qiáng)制 100% 正確率更有效。

兩個團(tuán)隊，兩套實驗，在同一個時間節(jié)點獨立得出了基本相同的結(jié)論：人類工程師的核心價值，正在從寫代碼轉(zhuǎn)向設(shè)計 AI 的工作環(huán)境。

爆火的“龍蝦”成為這套方法論最佳實例

Harness Engineering 發(fā)布的兩周前，另一件事剛剛發(fā)生。

奧地利開發(fā)者 Peter Steinberger 在2025年11月某個周末寫了一段腳本，讓 Claude 通過 WhatsApp 控制電腦。這個項目最初叫 Clawdbot，發(fā)布當(dāng)天在 Hacker News 上走紅，隨即遭到 Anthropic 的商標(biāo)律師函（“Clawd”與 Anthropic 產(chǎn)品名“Claude”沖突）。幾小時內(nèi)改名 Moltbot，Twitter 賬號立即被加密貨幣騙子搶注。三天內(nèi)第三次定名 OpenClaw，同步完成商標(biāo)檢索和 34 個安全加固提交。

這場品牌危機(jī)意外帶來了更大的曝光。2026年1月底，OpenClaw 的 GitHub Stars 突破 20 萬，成為有記錄以來增長最快的開源 AI Agent。對比：Linux 達(dá)到 10 萬 Star 用了 12 年，React 用了 8 年。

Steinberger 后來在博客里寫，OpenClaw 的核心使命是“讓我媽媽這樣的普通用戶也能用上 AI Agent”。它的架構(gòu)設(shè)計和 Harness Engineering 的底層邏輯高度吻合：不是構(gòu)建一個復(fù)雜的 AI 模型，而是設(shè)計一套讓人類能夠安全、靈活駕馭 Agent 的接入層——標(biāo)準(zhǔn)化的技能接口、細(xì)粒度的權(quán)限控制、本地化部署支持。

2026年2月15日，Sam Altman 宣布 Steinberger 加入 OpenAI，負(fù)責(zé)“下一代個人智能體”研發(fā)。項目本身移交獨立基金會，MIT 協(xié)議不變，OpenAI 作為贊助方。Steinberger 寫道，加入 OpenAI 是實現(xiàn)這個愿景的“最快路徑”，而且他本質(zhì)上是一個建造者，不是一個想經(jīng)營大公司的人。

一個月后的 GTC 大會，NVIDIA CEO 黃仁勛在主會場演講中將 OpenClaw 與 Linux、Kubernetes 并列，發(fā)布基于它的企業(yè)級安全層 NemoClaw——運行在 OpenClaw 之下，提供內(nèi)核級沙箱、進(jìn)程外策略引擎和隱私路由三項能力。目標(biāo)是讓企業(yè)能在自有硬件上安全部署 Agent，同時滿足數(shù)據(jù)主權(quán)要求。

TechCrunch 的標(biāo)題直接點破了這件事的邏輯：“NVIDIA 的版本能解決 OpenClaw 最大的問題：安全。”

Harness Engineering 談的是工程師如何“駕馭”AI；NemoClaw 回答的是企業(yè)如何把這套駕馭建立在可信的基礎(chǔ)設(shè)施上。兩件事拼在一起，完整描述了 2026 年上半年硅谷 AI 工程實踐的演變方向。

一個悖論

這套方法論的傳播速度很快，質(zhì)疑也隨之而來。

Anthropic 做了一項調(diào)查，數(shù)據(jù)顯示 Harness Engineering 風(fēng)格的工作方式讓工程師生產(chǎn)力提升了 50%。但調(diào)查同時發(fā)現(xiàn)了一個問題：工程師依賴 AI Agent 的時間越長，獨立判斷 AI 輸出質(zhì)量的能力就越弱。換句話說，你駕馭得越熟練，你對“馬”的理解反而越模糊。

OpenClaw 社區(qū)自己也給這個隱憂提供了具體注腳。CVE-2026-25253 漏洞讓約 4 萬臺 OpenClaw 實例暴露于遠(yuǎn)程代碼執(zhí)行風(fēng)險；ClawHub 技能平臺遭遇惡意投毒（ClawHavoc事件），Bitdefender 和微軟相繼發(fā)出警告，稱不應(yīng)直接在企業(yè)工作站上運行未經(jīng)審查的 OpenClaw Agent。

“駕馭”并不只是效率問題，也是對風(fēng)險的感知與控制能力。真正的問題或許不是這套方法論是否有效，而是當(dāng)工程師越來越擅長設(shè)計 AI 的工作環(huán)境，卻越來越難以直接審計 AI 的工作結(jié)果，這中間的那段信任，究竟該落在哪里。

這個問題，Harness Engineering 的博文里沒有答案，OpenClaw 的代碼庫里也沒有。

參考來源：

https://openai.com/index/harness-engineering/
https://cursor.com/blog/self-driving-codebases
https://steipete.me/posts/2026/openclaw
https://techcrunch.com/2026/03/16/nvidias-version-of-openclaw-could-solve-its-biggest-problem-security/
https://investor.nvidia.com/news/press-release-details/2026/NVIDIA-Announces-NemoClaw-for-the-OpenClaw-Community/default.aspx
https://www.cnbc.com/2026/02/15/openclaw-creator-peter-steinberger-joining-openai-altman-says.html

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.