337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

新研究重新評(píng)估 AGENTS.md 文件在 AI 編碼中的價(jià)值

0
分享至


作者 | Bruno Couriol

譯者 | 劉雅夢(mèng)

盡管業(yè)界普遍推薦,但蘇黎世聯(lián)邦理工學(xué)院(ETH Zurich)的一篇新論文得出結(jié)論,AGENTS.md文件可能經(jīng)常阻礙 AI 編碼智能體。研究人員建議完全省略由 LLM 生成的上下文文件,并限制人類編寫(xiě)的指令只包含不可推斷的細(xì)節(jié),例如非常具體的工具或自定義構(gòu)建命令。

團(tuán)隊(duì)(Thibaud Gloaguen、Niels Mündler、Mark Müller、Veselin Raychev、Martin Vechev)通過(guò)指出盡管目前有 60,000 個(gè)開(kāi)源倉(cāng)庫(kù)包含 AGENTS.md 等上下文文件,并且許多智能體框架都內(nèi)置了自動(dòng)生成這些文件的命令,但還沒(méi)有進(jìn)行嚴(yán)格的實(shí)證研究來(lái)調(diào)查這些文件是否真的提高了 AI 智能體解決現(xiàn)實(shí)世界編碼任務(wù)的能力,從而為研究提供了理由。

研究人員(其中一位為 Humanity Last Exam 基準(zhǔn)測(cè)試做出了貢獻(xiàn))構(gòu)建了 AGENTbench,這是一個(gè)新的數(shù)據(jù)集,包含 138 個(gè)來(lái)自小眾倉(cāng)庫(kù)的真實(shí)世界 Python 任務(wù)。這種設(shè)置故意避免了像 SWE-bench 這樣的流行基準(zhǔn)測(cè)試的偏見(jiàn),AI 模型可能已經(jīng)部分記住了這些測(cè)試。團(tuán)隊(duì)在三個(gè)不同場(chǎng)景下測(cè)試了四個(gè)智能體(Claude 3.5 Sonnet、Codex GPT-5.2 和 GPT-5.1 mini 以及 Qwen Code):不使用上下文文件、使用 LLM 生成的文件和人類編寫(xiě)的文件。研究人員通過(guò)跟蹤三個(gè)智能體指標(biāo)來(lái)評(píng)估倉(cāng)庫(kù)級(jí)指令的實(shí)際影響:任務(wù)成功率(由倉(cāng)庫(kù)單元測(cè)試確定)、代理步驟數(shù)量和總體推理成本。所有選定的小眾倉(cāng)庫(kù)都包含人類編寫(xiě)的上下文文件;前兩個(gè)場(chǎng)景通過(guò)移除或替換這些文件進(jìn)行測(cè)試。

研究人員發(fā)現(xiàn),LLM 生成的上下文文件會(huì)降低性能,與不提供任何上下文文件相比,任務(wù)成功率平均降低了 3%。它們還一致增加了智能體采取的步驟數(shù)量,將推理成本提高了 20% 以上。

另一方面,人類編寫(xiě)的文件確實(shí)提供了邊際收益,在 AGENTbench 上任務(wù)成功率平均提高了 4%。然而,這種正面增長(zhǎng)與步驟數(shù)量的并行增長(zhǎng)形成對(duì)比,成本也增加了高達(dá) 19%。

在 AGENTS.md 文件中包含諸如架構(gòu)概覽或倉(cāng)庫(kù)結(jié)構(gòu)解釋等信息似乎并沒(méi)有減少模型為手頭任務(wù)定位相關(guān)文件所花費(fèi)的時(shí)間。

為了理解性能下降和成本增加的原因,作者對(duì)智能體的工具調(diào)用和推理模式進(jìn)行了深入的跟蹤分析。智能體通常遵循 AGENTS.md 文件中包含的指令。結(jié)果,它們運(yùn)行了更多的測(cè)試,讀取了更多的文件,執(zhí)行了更多的 grep 搜索,并進(jìn)行了更多的代碼質(zhì)量檢查。雖然這種行為非常徹底,但通常對(duì)于解決手頭的具體任務(wù)來(lái)說(shuō)是不必要的。數(shù)據(jù)表明,額外的上下文迫使推理模型“思考”得更努力,而沒(méi)有產(chǎn)生更好的最終補(bǔ)丁。

作者最后強(qiáng)調(diào)了研究結(jié)果與當(dāng)前向使用 AI 代碼智能體的開(kāi)發(fā)人員提出的建議之間的差距:

我們發(fā)現(xiàn)所有上下文文件都一致地增加了完成任務(wù)所需的步驟數(shù)量。LLM 生成的上下文文件對(duì)任務(wù)成功率有邊際的負(fù)面影響,而開(kāi)發(fā)人員編寫(xiě)的文件則提供了邊際的性能提升。 我們的跟蹤分析顯示,上下文文件中的指令通常被遵循,并導(dǎo)致更多的測(cè)試和更廣泛的探索;然而,它們并不作為有效的倉(cāng)庫(kù)概覽。總體而言,我們的結(jié)果表明上下文文件對(duì)智能體行為只有邊際影響,并且可能只有在手動(dòng)編寫(xiě)時(shí)才受歡迎。這突出了當(dāng)前智能體 - 開(kāi)發(fā)人員建議與觀察結(jié)果之間的具體差距,并激發(fā)了未來(lái)工作,即以有原則的方式自動(dòng)生成簡(jiǎn)潔、與任務(wù)相關(guān)的指導(dǎo),以供編碼智能體使用。

開(kāi)發(fā)人員對(duì)這項(xiàng)研究表示了興趣。一位開(kāi)發(fā)人員指出,這項(xiàng)研究實(shí)際上應(yīng)該讓開(kāi)發(fā)人員專注于編寫(xiě)有用的 AGENTS.md 文件:

我讀了這項(xiàng)研究。我認(rèn)為它實(shí)際上與作者建議的相反——實(shí)際上是在支持好的 AGENTS.md 文件。 [...] AGENTS.md 文件的最大用例是模型不知道且無(wú)法立即從項(xiàng)目中推斷出的領(lǐng)域知識(shí)。這是從看到智能體因這種缺陷而掙扎中慢慢獲得的。這在閉源中非常常見(jiàn),但在擁有 AGENTS.md 文件的公共 GitHub 項(xiàng)目中非常罕見(jiàn)——絕大多數(shù)是最近以 LLMs 中心的小型氛圍編程項(xiàng)目。如果在后一種項(xiàng)目上看到了 4% 的增長(zhǎng),這些項(xiàng)目本來(lái)就有非常混雜質(zhì)量較差的 AGENTS.md 文件,那么對(duì)于擁有高質(zhì)量 AGENTS.md 的大型項(xiàng)目來(lái)說(shuō),它們?cè)谂c智能體合作時(shí)是無(wú)價(jià)的。

另一位開(kāi)發(fā)人員指出,上下文文件可能對(duì)開(kāi)發(fā)人員比對(duì) AI 利用具更有用:

我已經(jīng)維護(hù)一個(gè) CLAUDE.md 文件大約 3 個(gè)月了,它橫跨兩個(gè)項(xiàng)目,改進(jìn)是明顯的,但不是你所期望的原因。它提供的實(shí)際 token 級(jí)上下文并不重要,重要的是,編寫(xiě)它可以迫使你表達(dá)關(guān)于你的代碼庫(kù)的事情,這些之前只是在你的腦海中。像“我們因?yàn)?Y 中的遺留約束而對(duì) X 使用這種奇怪的模式”之類的東西。一旦寫(xiě)下來(lái),智能體就會(huì)把它撿起來(lái),但團(tuán)隊(duì)中的每個(gè)新成員也會(huì)這樣做。

開(kāi)發(fā)者可以 在線審閱論文。像AGENTS.mdCLAUDE.md.cursorrules這樣的上下文文件的使用,在 2025 年下半年變得日益重要,這與 AI 編碼智能體提供商的更大推動(dòng)相吻合。

https://www.infoq.com/news/2026/03/agents-context-file-value-review/

聲明:本文為 InfoQ 翻譯,未經(jīng)許可禁止轉(zhuǎn)載。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
80年陳云建議陳錫聯(lián)辭職,陳錫聯(lián)猛拍桌:讓我干啥,我絕無(wú)二話!

80年陳云建議陳錫聯(lián)辭職,陳錫聯(lián)猛拍桌:讓我干啥,我絕無(wú)二話!

抽象派大師
2026-03-25 12:04:28
回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風(fēng)韻猶存

回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風(fēng)韻猶存

素衣讀史
2026-03-25 21:05:22
真不能怪祖院長(zhǎng),就曾醫(yī)生這顏值、這才華和魅力,誰(shuí)遭的住?

真不能怪祖院長(zhǎng),就曾醫(yī)生這顏值、這才華和魅力,誰(shuí)遭的住?

吃瓜局
2025-11-11 16:23:49
場(chǎng)上效果很不理想,湖人鋒線大閘到了季后賽估計(jì)還是很難出場(chǎng)?

場(chǎng)上效果很不理想,湖人鋒線大閘到了季后賽估計(jì)還是很難出場(chǎng)?

稻谷與小麥
2026-03-27 01:18:15
“14天12板”!000908,復(fù)牌后上演“地天板”

“14天12板”!000908,復(fù)牌后上演“地天板”

大眾證券報(bào)
2026-03-26 17:58:54
馬筱梅曬汪寶滿月宴,六菜一湯很低調(diào),張?zhí)m未參加,小心思太明顯

馬筱梅曬汪寶滿月宴,六菜一湯很低調(diào),張?zhí)m未參加,小心思太明顯

阿庫(kù)財(cái)經(jīng)
2026-03-27 00:01:45
15戰(zhàn)14勝,加時(shí)掀翻東部第一!新鷹王27+8+12證明賤賣特雷楊有理

15戰(zhàn)14勝,加時(shí)掀翻東部第一!新鷹王27+8+12證明賤賣特雷楊有理

鍋?zhàn)踊@球
2026-03-26 11:25:55
巴薩舊將:當(dāng)時(shí)赫萊布知道自己要離隊(duì),他往功能飲料里兌酒喝

巴薩舊將:當(dāng)時(shí)赫萊布知道自己要離隊(duì),他往功能飲料里兌酒喝

懂球帝
2026-03-26 06:43:09
外媒:40%的消費(fèi)者希望中國(guó)品牌汽車進(jìn)入美國(guó)市場(chǎng)

外媒:40%的消費(fèi)者希望中國(guó)品牌汽車進(jìn)入美國(guó)市場(chǎng)

環(huán)球網(wǎng)資訊
2026-03-24 13:45:12
伊朗再獲重大勝利!美國(guó),又被打慘了!

伊朗再獲重大勝利!美國(guó),又被打慘了!

大嘴說(shuō)天下
2026-03-26 19:32:16
15名津巴布韋人被俄羅斯騙去烏克蘭當(dāng)炮灰戰(zhàn)死,當(dāng)局怒揭殘酷真相

15名津巴布韋人被俄羅斯騙去烏克蘭當(dāng)炮灰戰(zhàn)死,當(dāng)局怒揭殘酷真相

老馬拉車莫少裝
2026-03-27 00:00:37
伊朗抓捕14名叛國(guó)分子

伊朗抓捕14名叛國(guó)分子

財(cái)聯(lián)社
2026-03-26 20:04:13
路透社:歐盟警告越南,敢用中國(guó)5G,就讓外資撤光!

路透社:歐盟警告越南,敢用中國(guó)5G,就讓外資撤光!

泠泠說(shuō)史
2026-03-26 18:06:17
白宮堅(jiān)稱美伊仍在談判,威脅伊朗“切勿誤判”;伊朗外長(zhǎng):美國(guó)談?wù)摗罢勁小睙o(wú)異于承認(rèn)“失敗”,伊朗放聲開(kāi)新戰(zhàn)線

白宮堅(jiān)稱美伊仍在談判,威脅伊朗“切勿誤判”;伊朗外長(zhǎng):美國(guó)談?wù)摗罢勁小睙o(wú)異于承認(rèn)“失敗”,伊朗放聲開(kāi)新戰(zhàn)線

每日經(jīng)濟(jì)新聞
2026-03-26 17:08:49
菲總統(tǒng)候選人莫雷諾:如果當(dāng)選,我會(huì)讓菲律賓成為下一個(gè)新加坡!

菲總統(tǒng)候選人莫雷諾:如果當(dāng)選,我會(huì)讓菲律賓成為下一個(gè)新加坡!

小丸說(shuō)故事
2026-03-17 14:23:29
柯文哲被判重刑,黃國(guó)昌蔣萬(wàn)安回應(yīng),賴清德又盯上鄭麗文?

柯文哲被判重刑,黃國(guó)昌蔣萬(wàn)安回應(yīng),賴清德又盯上鄭麗文?

DS北風(fēng)
2026-03-26 17:58:06
電影《挽救計(jì)劃》高口碑熱映 以跨文明協(xié)作詮釋守望相助溫暖內(nèi)核

電影《挽救計(jì)劃》高口碑熱映 以跨文明協(xié)作詮釋守望相助溫暖內(nèi)核

封面新聞
2026-03-26 18:56:02
智能麻將桌殺到:傳統(tǒng)麻將館真的要被“取代”了?

智能麻將桌殺到:傳統(tǒng)麻將館真的要被“取代”了?

生活新鮮市
2026-03-20 06:28:56
原油飆漲!黃金、白銀下跌,美股突變!特朗普威脅!霍爾木茲海峽,最新消息!

原油飆漲!黃金、白銀下跌,美股突變!特朗普威脅!霍爾木茲海峽,最新消息!

證券時(shí)報(bào)e公司
2026-03-26 22:23:23
TOP14位身高170以上的女神,有顏有燈有演技

TOP14位身高170以上的女神,有顏有燈有演技

素然追光
2026-01-02 02:45:02
2026-03-27 02:16:49
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
12207文章數(shù) 51820關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績(jī)單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

本地
健康
游戲
數(shù)碼
公開(kāi)課

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬(wàn)遍

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

PS1大IP游戲藏私貨!成人手繪與盜版馬里奧ROM塞滿

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動(dòng),支持B70 / B65顯卡

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版