2026年2月,OpenAI 在官方博客發(fā)表了一篇名為《Harness Engineering: Leveraging Codex in an Agent-First World》的文章。核心內(nèi)容只有一件事:一個三人工程師小組,用五個月時間,完全依靠 AI Agent 交付了約 100 萬行代碼、1500 個 Pull Request,全程沒有任何人手動寫過一行代碼。
![]()
數(shù)字本身并不稀奇,真正值得關(guān)注的是這件事發(fā)生的時間節(jié)點,以及它背后折射出來的工程范式轉(zhuǎn)變。
三個人,五個月,一個不成文的規(guī)定
2025年8月,OpenAI 內(nèi)部一個三人小組承接了一個新產(chǎn)品開發(fā)任務(wù)。他們給自己設(shè)了一條規(guī)則:所有代碼必須由 Codex AI Agent 生成,人類工程師不動鍵盤寫代碼。
五個月后,產(chǎn)品上線。代碼庫約 100 萬行,人均每天合并 3.5 個 Pull Request。Martin Fowler 在評價這項實驗時說:“Harness Engineering 包含了上下文工程、架構(gòu)約束和垃圾回收,是對 AI 賦能軟件開發(fā)的一種有價值的框架性闡述。”
這個實驗之所以值得關(guān)注,不是因為它證明了 AI 能寫代碼——這一點早已無需證明——而是因為它回答了一個更具體的問題:當(dāng) AI 真的可以承擔(dān)大部分編碼工作時,工程師究竟該做什么?
“駕馭”是什么意思
Harness,在英文里本義是馬具、挽具——不是讓你騎馬,而是讓馬老老實實拉車。OpenAI 用這個詞,是在描述一種特定的工程師角色:不再生產(chǎn)代碼,而是設(shè)計一個讓 AI 能把事做對的環(huán)境。
這和“Prompt Engineering”有本質(zhì)區(qū)別。寫提示詞是告訴 AI 怎么做這件事;Harness Engineering 是提前把“這件事的上下文、約束和驗證方式”設(shè)計成 AI 可以理解的結(jié)構(gòu),讓它在這個環(huán)境里自主運行。
三人團(tuán)隊的核心實踐可以拆成幾個具體動作:
他們寫了一份叫 AGENTS.md 的文檔,只有 100 行。這不是使用手冊,而是索引——里面存的是架構(gòu)圖、設(shè)計規(guī)范和執(zhí)行計劃的入口,類似代碼庫的 README,但服務(wù)對象是 Agent 而不是人類。規(guī)則很嚴(yán)格:關(guān)鍵知識只能活在代碼庫里,禁止散落在 Slack 消息或口口相傳的討論里。
他們給 Agent 裝上了眼睛。通過集成 Chrome DevTools,Agent 可以自己截圖驗證 UI 渲染結(jié)果,不需要人類反復(fù)確認(rèn)頁面對不對。Agent 寫完代碼、運行測試、看截圖、發(fā)現(xiàn)問題、自己修,形成一個閉環(huán)。
他們刻意選擇“無聊”的技術(shù)棧。這條實踐看起來反直覺,但邏輯很清晰:訓(xùn)練數(shù)據(jù)里出現(xiàn)越多的庫和框架,Codex 對它的理解就越準(zhǔn)確,出錯率越低。用冷門的新庫,等于讓 AI 在沒有地圖的地方開車。
還有一個被他們稱為“垃圾回收”的機(jī)制:后臺運行一個周期性 Agent,定期掃描代碼庫里的技術(shù)債——過時的依賴、被注釋的死代碼、違反架構(gòu)約束的模塊——自動提交修復(fù) PR。人類工程師不需要主動觸發(fā)這件事,它就在那里自動跑著。
Cursor 的對照實驗
幾乎在同一時期,Cursor 團(tuán)隊做了一個更極端的實驗:用數(shù)百個 Agent 并行運行整整一周,從零開始用 Rust 寫一個瀏覽器引擎,最終產(chǎn)出超過 100 萬行代碼。
這個實驗一開始并不順利。第一版架構(gòu)讓所有 Agent 地位平等,通過共享狀態(tài)文件協(xié)調(diào)工作。結(jié)果 20 個 Agent 的吞吐量退化到相當(dāng)于 1 至 3 個 Agent。原因是典型的“風(fēng)險厭惡”:在沒有明確分工的情況下,每個 Agent 都傾向于只做安全的小修改,真正復(fù)雜的任務(wù)沒有人敢碰。
后來他們試過流水線(Planner-Executor-Worker-Judge),又試過讓 Executor 同時承擔(dān)規(guī)劃職能——每次都有改進(jìn),也有新的瓶頸。最終跑通的方案是“遞歸 Planner 加獨立 Worker”:根 Planner 持有全局視野,當(dāng)任務(wù)可以繼續(xù)分解時遞歸生成子 Planner;每個 Worker 只接觸自己負(fù)責(zé)的那份代碼副本,互不感知,完成后提交交接報告。
Cursor 自己總結(jié)這個實驗的核心發(fā)現(xiàn)時說:高吞吐量 Agent 開發(fā)需要接受“不完美但快速迭代”的哲學(xué),而不是追求一次性完美。允許一個穩(wěn)定的低錯誤率,讓后續(xù) Agent 快速修復(fù),反而比強(qiáng)制 100% 正確率更有效。
兩個團(tuán)隊,兩套實驗,在同一個時間節(jié)點獨立得出了基本相同的結(jié)論:人類工程師的核心價值,正在從寫代碼轉(zhuǎn)向設(shè)計 AI 的工作環(huán)境。
爆火的“龍蝦”成為這套方法論最佳實例
Harness Engineering 發(fā)布的兩周前,另一件事剛剛發(fā)生。
奧地利開發(fā)者 Peter Steinberger 在2025年11月某個周末寫了一段腳本,讓 Claude 通過 WhatsApp 控制電腦。這個項目最初叫 Clawdbot,發(fā)布當(dāng)天在 Hacker News 上走紅,隨即遭到 Anthropic 的商標(biāo)律師函(“Clawd”與 Anthropic 產(chǎn)品名“Claude”沖突)。幾小時內(nèi)改名 Moltbot,Twitter 賬號立即被加密貨幣騙子搶注。三天內(nèi)第三次定名 OpenClaw,同步完成商標(biāo)檢索和 34 個安全加固提交。
這場品牌危機(jī)意外帶來了更大的曝光。2026年1月底,OpenClaw 的 GitHub Stars 突破 20 萬,成為有記錄以來增長最快的開源 AI Agent。對比:Linux 達(dá)到 10 萬 Star 用了 12 年,React 用了 8 年。
Steinberger 后來在博客里寫,OpenClaw 的核心使命是“讓我媽媽這樣的普通用戶也能用上 AI Agent”。它的架構(gòu)設(shè)計和 Harness Engineering 的底層邏輯高度吻合:不是構(gòu)建一個復(fù)雜的 AI 模型,而是設(shè)計一套讓人類能夠安全、靈活駕馭 Agent 的接入層——標(biāo)準(zhǔn)化的技能接口、細(xì)粒度的權(quán)限控制、本地化部署支持。
2026年2月15日,Sam Altman 宣布 Steinberger 加入 OpenAI,負(fù)責(zé)“下一代個人智能體”研發(fā)。項目本身移交獨立基金會,MIT 協(xié)議不變,OpenAI 作為贊助方。Steinberger 寫道,加入 OpenAI 是實現(xiàn)這個愿景的“最快路徑”,而且他本質(zhì)上是一個建造者,不是一個想經(jīng)營大公司的人。
一個月后的 GTC 大會,NVIDIA CEO 黃仁勛在主會場演講中將 OpenClaw 與 Linux、Kubernetes 并列,發(fā)布基于它的企業(yè)級安全層 NemoClaw——運行在 OpenClaw 之下,提供內(nèi)核級沙箱、進(jìn)程外策略引擎和隱私路由三項能力。目標(biāo)是讓企業(yè)能在自有硬件上安全部署 Agent,同時滿足數(shù)據(jù)主權(quán)要求。
TechCrunch 的標(biāo)題直接點破了這件事的邏輯:“NVIDIA 的版本能解決 OpenClaw 最大的問題:安全。”
Harness Engineering 談的是工程師如何“駕馭”AI;NemoClaw 回答的是企業(yè)如何把這套駕馭建立在可信的基礎(chǔ)設(shè)施上。兩件事拼在一起,完整描述了 2026 年上半年硅谷 AI 工程實踐的演變方向。
一個悖論
這套方法論的傳播速度很快,質(zhì)疑也隨之而來。
Anthropic 做了一項調(diào)查,數(shù)據(jù)顯示 Harness Engineering 風(fēng)格的工作方式讓工程師生產(chǎn)力提升了 50%。但調(diào)查同時發(fā)現(xiàn)了一個問題:工程師依賴 AI Agent 的時間越長,獨立判斷 AI 輸出質(zhì)量的能力就越弱。換句話說,你駕馭得越熟練,你對“馬”的理解反而越模糊。
OpenClaw 社區(qū)自己也給這個隱憂提供了具體注腳。CVE-2026-25253 漏洞讓約 4 萬臺 OpenClaw 實例暴露于遠(yuǎn)程代碼執(zhí)行風(fēng)險;ClawHub 技能平臺遭遇惡意投毒(ClawHavoc事件),Bitdefender 和微軟相繼發(fā)出警告,稱不應(yīng)直接在企業(yè)工作站上運行未經(jīng)審查的 OpenClaw Agent。
“駕馭”并不只是效率問題,也是對風(fēng)險的感知與控制能力。真正的問題或許不是這套方法論是否有效,而是當(dāng)工程師越來越擅長設(shè)計 AI 的工作環(huán)境,卻越來越難以直接審計 AI 的工作結(jié)果,這中間的那段信任,究竟該落在哪里。
這個問題,Harness Engineering 的博文里沒有答案,OpenClaw 的代碼庫里也沒有。
參考來源:
https://openai.com/index/harness-engineering/
https://cursor.com/blog/self-driving-codebases
https://steipete.me/posts/2026/openclaw
https://techcrunch.com/2026/03/16/nvidias-version-of-openclaw-could-solve-its-biggest-problem-security/
https://investor.nvidia.com/news/press-release-details/2026/NVIDIA-Announces-NemoClaw-for-the-OpenClaw-Community/default.aspx
https://www.cnbc.com/2026/02/15/openclaw-creator-peter-steinberger-joining-openai-altman-says.html
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.