網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

新研究重新評(píng)估 AGENTS.md 文件在 AI 編碼中的價(jià)值

2026-03-16 18:26:44　來(lái)源: InfoQ

北京舉報(bào)

分享至

作者 | Bruno Couriol

譯者 | 劉雅夢(mèng)

盡管業(yè)界普遍推薦，但蘇黎世聯(lián)邦理工學(xué)院（ETH Zurich）的一篇新論文得出結(jié)論，AGENTS.md文件可能經(jīng)常阻礙 AI 編碼智能體。研究人員建議完全省略由 LLM 生成的上下文文件，并限制人類編寫(xiě)的指令只包含不可推斷的細(xì)節(jié)，例如非常具體的工具或自定義構(gòu)建命令。

團(tuán)隊(duì)（Thibaud Gloaguen、Niels Mündler、Mark Müller、Veselin Raychev、Martin Vechev）通過(guò)指出盡管目前有 60,000 個(gè)開(kāi)源倉(cāng)庫(kù)包含 AGENTS.md 等上下文文件，并且許多智能體框架都內(nèi)置了自動(dòng)生成這些文件的命令，但還沒(méi)有進(jìn)行嚴(yán)格的實(shí)證研究來(lái)調(diào)查這些文件是否真的提高了 AI 智能體解決現(xiàn)實(shí)世界編碼任務(wù)的能力，從而為研究提供了理由。

研究人員（其中一位為 Humanity Last Exam 基準(zhǔn)測(cè)試做出了貢獻(xiàn)）構(gòu)建了 AGENTbench，這是一個(gè)新的數(shù)據(jù)集，包含 138 個(gè)來(lái)自小眾倉(cāng)庫(kù)的真實(shí)世界 Python 任務(wù)。這種設(shè)置故意避免了像 SWE-bench 這樣的流行基準(zhǔn)測(cè)試的偏見(jiàn)，AI 模型可能已經(jīng)部分記住了這些測(cè)試。團(tuán)隊(duì)在三個(gè)不同場(chǎng)景下測(cè)試了四個(gè)智能體（Claude 3.5 Sonnet、Codex GPT-5.2 和 GPT-5.1 mini 以及 Qwen Code）：不使用上下文文件、使用 LLM 生成的文件和人類編寫(xiě)的文件。研究人員通過(guò)跟蹤三個(gè)智能體指標(biāo)來(lái)評(píng)估倉(cāng)庫(kù)級(jí)指令的實(shí)際影響：任務(wù)成功率（由倉(cāng)庫(kù)單元測(cè)試確定）、代理步驟數(shù)量和總體推理成本。所有選定的小眾倉(cāng)庫(kù)都包含人類編寫(xiě)的上下文文件；前兩個(gè)場(chǎng)景通過(guò)移除或替換這些文件進(jìn)行測(cè)試。

研究人員發(fā)現(xiàn)，LLM 生成的上下文文件會(huì)降低性能，與不提供任何上下文文件相比，任務(wù)成功率平均降低了 3%。它們還一致增加了智能體采取的步驟數(shù)量，將推理成本提高了 20% 以上。

另一方面，人類編寫(xiě)的文件確實(shí)提供了邊際收益，在 AGENTbench 上任務(wù)成功率平均提高了 4%。然而，這種正面增長(zhǎng)與步驟數(shù)量的并行增長(zhǎng)形成對(duì)比，成本也增加了高達(dá) 19%。

在 AGENTS.md 文件中包含諸如架構(gòu)概覽或倉(cāng)庫(kù)結(jié)構(gòu)解釋等信息似乎并沒(méi)有減少模型為手頭任務(wù)定位相關(guān)文件所花費(fèi)的時(shí)間。

為了理解性能下降和成本增加的原因，作者對(duì)智能體的工具調(diào)用和推理模式進(jìn)行了深入的跟蹤分析。智能體通常遵循 AGENTS.md 文件中包含的指令。結(jié)果，它們運(yùn)行了更多的測(cè)試，讀取了更多的文件，執(zhí)行了更多的 grep 搜索，并進(jìn)行了更多的代碼質(zhì)量檢查。雖然這種行為非常徹底，但通常對(duì)于解決手頭的具體任務(wù)來(lái)說(shuō)是不必要的。數(shù)據(jù)表明，額外的上下文迫使推理模型“思考”得更努力，而沒(méi)有產(chǎn)生更好的最終補(bǔ)丁。

作者最后強(qiáng)調(diào)了研究結(jié)果與當(dāng)前向使用 AI 代碼智能體的開(kāi)發(fā)人員提出的建議之間的差距：

我們發(fā)現(xiàn)所有上下文文件都一致地增加了完成任務(wù)所需的步驟數(shù)量。LLM 生成的上下文文件對(duì)任務(wù)成功率有邊際的負(fù)面影響，而開(kāi)發(fā)人員編寫(xiě)的文件則提供了邊際的性能提升。我們的跟蹤分析顯示，上下文文件中的指令通常被遵循，并導(dǎo)致更多的測(cè)試和更廣泛的探索；然而，它們并不作為有效的倉(cāng)庫(kù)概覽。總體而言，我們的結(jié)果表明上下文文件對(duì)智能體行為只有邊際影響，并且可能只有在手動(dòng)編寫(xiě)時(shí)才受歡迎。這突出了當(dāng)前智能體 - 開(kāi)發(fā)人員建議與觀察結(jié)果之間的具體差距，并激發(fā)了未來(lái)工作，即以有原則的方式自動(dòng)生成簡(jiǎn)潔、與任務(wù)相關(guān)的指導(dǎo)，以供編碼智能體使用。

開(kāi)發(fā)人員對(duì)這項(xiàng)研究表示了興趣。一位開(kāi)發(fā)人員指出，這項(xiàng)研究實(shí)際上應(yīng)該讓開(kāi)發(fā)人員專注于編寫(xiě)有用的 AGENTS.md 文件：

我讀了這項(xiàng)研究。我認(rèn)為它實(shí)際上與作者建議的相反——實(shí)際上是在支持好的 AGENTS.md 文件。 [...] AGENTS.md 文件的最大用例是模型不知道且無(wú)法立即從項(xiàng)目中推斷出的領(lǐng)域知識(shí)。這是從看到智能體因這種缺陷而掙扎中慢慢獲得的。這在閉源中非常常見(jiàn)，但在擁有 AGENTS.md 文件的公共 GitHub 項(xiàng)目中非常罕見(jiàn)——絕大多數(shù)是最近以 LLMs 中心的小型氛圍編程項(xiàng)目。如果在后一種項(xiàng)目上看到了 4% 的增長(zhǎng)，這些項(xiàng)目本來(lái)就有非常混雜質(zhì)量較差的 AGENTS.md 文件，那么對(duì)于擁有高質(zhì)量 AGENTS.md 的大型項(xiàng)目來(lái)說(shuō)，它們?cè)谂c智能體合作時(shí)是無(wú)價(jià)的。

另一位開(kāi)發(fā)人員指出，上下文文件可能對(duì)開(kāi)發(fā)人員比對(duì) AI 利用具更有用：

我已經(jīng)維護(hù)一個(gè) CLAUDE.md 文件大約 3 個(gè)月了，它橫跨兩個(gè)項(xiàng)目，改進(jìn)是明顯的，但不是你所期望的原因。它提供的實(shí)際 token 級(jí)上下文并不重要，重要的是，編寫(xiě)它可以迫使你表達(dá)關(guān)于你的代碼庫(kù)的事情，這些之前只是在你的腦海中。像“我們因?yàn)?Y 中的遺留約束而對(duì) X 使用這種奇怪的模式”之類的東西。一旦寫(xiě)下來(lái)，智能體就會(huì)把它撿起來(lái)，但團(tuán)隊(duì)中的每個(gè)新成員也會(huì)這樣做。

開(kāi)發(fā)者可以在線審閱論文。像AGENTS.md、CLAUDE.md或.cursorrules這樣的上下文文件的使用，在 2025 年下半年變得日益重要，這與 AI 編碼智能體提供商的更大推動(dòng)相吻合。

https://www.infoq.com/news/2026/03/agents-context-file-value-review/

聲明：本文為 InfoQ 翻譯，未經(jīng)許可禁止轉(zhuǎn)載。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.