![]()
作者 | Bruno Couriol
譯者 | 劉雅夢(mèng)
盡管業(yè)界普遍推薦,但蘇黎世聯(lián)邦理工學(xué)院(ETH Zurich)的一篇新論文得出結(jié)論,AGENTS.md文件可能經(jīng)常阻礙 AI 編碼智能體。研究人員建議完全省略由 LLM 生成的上下文文件,并限制人類編寫(xiě)的指令只包含不可推斷的細(xì)節(jié),例如非常具體的工具或自定義構(gòu)建命令。
團(tuán)隊(duì)(Thibaud Gloaguen、Niels Mündler、Mark Müller、Veselin Raychev、Martin Vechev)通過(guò)指出盡管目前有 60,000 個(gè)開(kāi)源倉(cāng)庫(kù)包含 AGENTS.md 等上下文文件,并且許多智能體框架都內(nèi)置了自動(dòng)生成這些文件的命令,但還沒(méi)有進(jìn)行嚴(yán)格的實(shí)證研究來(lái)調(diào)查這些文件是否真的提高了 AI 智能體解決現(xiàn)實(shí)世界編碼任務(wù)的能力,從而為研究提供了理由。
研究人員(其中一位為 Humanity Last Exam 基準(zhǔn)測(cè)試做出了貢獻(xiàn))構(gòu)建了 AGENTbench,這是一個(gè)新的數(shù)據(jù)集,包含 138 個(gè)來(lái)自小眾倉(cāng)庫(kù)的真實(shí)世界 Python 任務(wù)。這種設(shè)置故意避免了像 SWE-bench 這樣的流行基準(zhǔn)測(cè)試的偏見(jiàn),AI 模型可能已經(jīng)部分記住了這些測(cè)試。團(tuán)隊(duì)在三個(gè)不同場(chǎng)景下測(cè)試了四個(gè)智能體(Claude 3.5 Sonnet、Codex GPT-5.2 和 GPT-5.1 mini 以及 Qwen Code):不使用上下文文件、使用 LLM 生成的文件和人類編寫(xiě)的文件。研究人員通過(guò)跟蹤三個(gè)智能體指標(biāo)來(lái)評(píng)估倉(cāng)庫(kù)級(jí)指令的實(shí)際影響:任務(wù)成功率(由倉(cāng)庫(kù)單元測(cè)試確定)、代理步驟數(shù)量和總體推理成本。所有選定的小眾倉(cāng)庫(kù)都包含人類編寫(xiě)的上下文文件;前兩個(gè)場(chǎng)景通過(guò)移除或替換這些文件進(jìn)行測(cè)試。
研究人員發(fā)現(xiàn),LLM 生成的上下文文件會(huì)降低性能,與不提供任何上下文文件相比,任務(wù)成功率平均降低了 3%。它們還一致增加了智能體采取的步驟數(shù)量,將推理成本提高了 20% 以上。
另一方面,人類編寫(xiě)的文件確實(shí)提供了邊際收益,在 AGENTbench 上任務(wù)成功率平均提高了 4%。然而,這種正面增長(zhǎng)與步驟數(shù)量的并行增長(zhǎng)形成對(duì)比,成本也增加了高達(dá) 19%。
在 AGENTS.md 文件中包含諸如架構(gòu)概覽或倉(cāng)庫(kù)結(jié)構(gòu)解釋等信息似乎并沒(méi)有減少模型為手頭任務(wù)定位相關(guān)文件所花費(fèi)的時(shí)間。
為了理解性能下降和成本增加的原因,作者對(duì)智能體的工具調(diào)用和推理模式進(jìn)行了深入的跟蹤分析。智能體通常遵循 AGENTS.md 文件中包含的指令。結(jié)果,它們運(yùn)行了更多的測(cè)試,讀取了更多的文件,執(zhí)行了更多的 grep 搜索,并進(jìn)行了更多的代碼質(zhì)量檢查。雖然這種行為非常徹底,但通常對(duì)于解決手頭的具體任務(wù)來(lái)說(shuō)是不必要的。數(shù)據(jù)表明,額外的上下文迫使推理模型“思考”得更努力,而沒(méi)有產(chǎn)生更好的最終補(bǔ)丁。
作者最后強(qiáng)調(diào)了研究結(jié)果與當(dāng)前向使用 AI 代碼智能體的開(kāi)發(fā)人員提出的建議之間的差距:
我們發(fā)現(xiàn)所有上下文文件都一致地增加了完成任務(wù)所需的步驟數(shù)量。LLM 生成的上下文文件對(duì)任務(wù)成功率有邊際的負(fù)面影響,而開(kāi)發(fā)人員編寫(xiě)的文件則提供了邊際的性能提升。 我們的跟蹤分析顯示,上下文文件中的指令通常被遵循,并導(dǎo)致更多的測(cè)試和更廣泛的探索;然而,它們并不作為有效的倉(cāng)庫(kù)概覽。總體而言,我們的結(jié)果表明上下文文件對(duì)智能體行為只有邊際影響,并且可能只有在手動(dòng)編寫(xiě)時(shí)才受歡迎。這突出了當(dāng)前智能體 - 開(kāi)發(fā)人員建議與觀察結(jié)果之間的具體差距,并激發(fā)了未來(lái)工作,即以有原則的方式自動(dòng)生成簡(jiǎn)潔、與任務(wù)相關(guān)的指導(dǎo),以供編碼智能體使用。
開(kāi)發(fā)人員對(duì)這項(xiàng)研究表示了興趣。一位開(kāi)發(fā)人員指出,這項(xiàng)研究實(shí)際上應(yīng)該讓開(kāi)發(fā)人員專注于編寫(xiě)有用的 AGENTS.md 文件:
我讀了這項(xiàng)研究。我認(rèn)為它實(shí)際上與作者建議的相反——實(shí)際上是在支持好的 AGENTS.md 文件。 [...] AGENTS.md 文件的最大用例是模型不知道且無(wú)法立即從項(xiàng)目中推斷出的領(lǐng)域知識(shí)。這是從看到智能體因這種缺陷而掙扎中慢慢獲得的。這在閉源中非常常見(jiàn),但在擁有 AGENTS.md 文件的公共 GitHub 項(xiàng)目中非常罕見(jiàn)——絕大多數(shù)是最近以 LLMs 中心的小型氛圍編程項(xiàng)目。如果在后一種項(xiàng)目上看到了 4% 的增長(zhǎng),這些項(xiàng)目本來(lái)就有非常混雜質(zhì)量較差的 AGENTS.md 文件,那么對(duì)于擁有高質(zhì)量 AGENTS.md 的大型項(xiàng)目來(lái)說(shuō),它們?cè)谂c智能體合作時(shí)是無(wú)價(jià)的。
另一位開(kāi)發(fā)人員指出,上下文文件可能對(duì)開(kāi)發(fā)人員比對(duì) AI 利用具更有用:
我已經(jīng)維護(hù)一個(gè) CLAUDE.md 文件大約 3 個(gè)月了,它橫跨兩個(gè)項(xiàng)目,改進(jìn)是明顯的,但不是你所期望的原因。它提供的實(shí)際 token 級(jí)上下文并不重要,重要的是,編寫(xiě)它可以迫使你表達(dá)關(guān)于你的代碼庫(kù)的事情,這些之前只是在你的腦海中。像“我們因?yàn)?Y 中的遺留約束而對(duì) X 使用這種奇怪的模式”之類的東西。一旦寫(xiě)下來(lái),智能體就會(huì)把它撿起來(lái),但團(tuán)隊(duì)中的每個(gè)新成員也會(huì)這樣做。
開(kāi)發(fā)者可以 在線審閱論文。像AGENTS.md、CLAUDE.md或.cursorrules這樣的上下文文件的使用,在 2025 年下半年變得日益重要,這與 AI 編碼智能體提供商的更大推動(dòng)相吻合。
https://www.infoq.com/news/2026/03/agents-context-file-value-review/
聲明:本文為 InfoQ 翻譯,未經(jīng)許可禁止轉(zhuǎn)載。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.