Agent不是關(guān)鍵！人大AiScientist實現(xiàn)23小時、74輪長程記憶

2026-04-20 12:07:13　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導(dǎo)讀】中國人民大學(xué)團隊打造的AiScientist，旨在解決長程機器學(xué)習(xí)研究工程的持續(xù)性難題。該系統(tǒng)從論文理解開始，跨越環(huán)境配置、代碼實現(xiàn)與實驗迭代，保持狀態(tài)連續(xù)與決策連貫，顯著提升科研效率。其核心在于通過File-as-Bus機制，穩(wěn)定保存項目狀態(tài)，使AI能真正接手科研流程，而非僅輔助單個環(huán)節(jié)。

自動化科學(xué)研究，正在成為人工智能領(lǐng)域最受關(guān)注的方向之一。

在機器學(xué)習(xí)場景下，已經(jīng)有越來越多系統(tǒng)能夠參與 idea generation、literature synthesis、targeted experimentation、scientific writing 等研究環(huán)節(jié)。無論是從論文到代碼，還是從實驗到分析，AI for Research 的邊界都在快速外擴。

AiScientist的切入點，是在這些已有進展的基礎(chǔ)上，進一步關(guān)注一個更具操作性、也更接近真實科研流程的設(shè)定：長程ML research engineering。

在這一設(shè)定下，系統(tǒng)不只是完成某一個環(huán)節(jié)，而是要從論文或研究目標出發(fā)，連續(xù)處理環(huán)境配置、依賴管理、資源獲取、代碼實現(xiàn)、實驗執(zhí)行、結(jié)果對比、錯誤歸因和反復(fù)修復(fù)。這里既有局部環(huán)節(jié)本身的技術(shù)難度，也有跨階段持續(xù)推進時的系統(tǒng)性挑戰(zhàn)。

更關(guān)鍵的是，這些問題往往不會即時暴露。一個早期決策的偏差，可能要到數(shù)小時后的實驗結(jié)果里才會顯現(xiàn)；而一旦項目狀態(tài)在多輪推進中丟失，后續(xù)階段就很難判斷問題究竟來自論文理解、實現(xiàn)細節(jié)、數(shù)據(jù)處理，還是基礎(chǔ)設(shè)施配置。

中國人民大學(xué)高瓴人工智能學(xué)院此次提出的AiScientist，正是沿著這條方向，試圖把AI從「能參與若干研究環(huán)節(jié)」進一步推進到「能持續(xù)接手研究工程流程」。

論文：https://arxiv.org/pdf/2604.13018

倉庫：https://github.com/AweAI-Team/AiScientist

23小時、74輪實驗

AiScientist在做什么？

AiScientist最直觀的結(jié)果，來自MLE-Bench Lite的Detecting Insults任務(wù)。

在這一任務(wù)上，AiScientist在23小時內(nèi)自主完成了74輪實驗循環(huán)，將validation AUC從0.903提升到了0.982，期間實現(xiàn)了18次best-so-far update。

這一結(jié)果的意義，不只是分數(shù)提高了多少，更在于它呈現(xiàn)出了一條完整的研究工程鏈路：從讀取任務(wù)、搭建環(huán)境、撰寫實現(xiàn)，到運行實驗、分析偏差、修補系統(tǒng)、再驗證結(jié)果，整個過程并非單次生成，而是持續(xù)迭代。

換句話說，AiScientist試圖解決的并不是「再做一個更強的代碼助手」，而是讓 AI 在真實科研流程中，開始具備持續(xù)推進任務(wù)的能力。

AiScientist在解決什么問題？

現(xiàn)有不少AI for Research系統(tǒng)，已經(jīng)能在某些研究環(huán)節(jié)展現(xiàn)出很強能力，例如生成代碼、總結(jié)論文、輔助實驗設(shè)計，甚至完成一整篇論文的撰寫。

AiScientist聚焦于實驗性更強的場景：ML research engineering，它不是一個單點問題，而是一條跨階段、長時間的連續(xù)任務(wù)鏈。系統(tǒng)需要先理解論文和目標設(shè)定，再處理依賴與資源，完成實現(xiàn)，運行實驗，并根據(jù)實驗輸出做歸因、修正和繼續(xù)迭代。

其中每一個環(huán)節(jié)，本身都已經(jīng)足夠困難。論文可能是不完整、欠規(guī)格化的；環(huán)境配置與依賴下載常常瑣碎而脆弱；實驗反饋具有明顯延遲，而且錯誤原因往往交織在實現(xiàn)、數(shù)據(jù)、超參與基礎(chǔ)設(shè)施多個層面。

論文也指出，這一困難已經(jīng)在嚴苛評測中有所體現(xiàn)：在 PaperBench 這類高難度從零復(fù)現(xiàn)任務(wù)上，最佳已報告agent僅達到約21%的replication rubric，而頂尖ML PhD在48小時預(yù)算下可達到41%。這說明，長程研究工程的瓶頸并不只是模型能否完成局部推理，而是系統(tǒng)能否跨越多個階段，保持狀態(tài)連續(xù)和決策連貫。

也就是說，長程ML research engineering既包含很多高難度的local problem，也要求把這些問題在時間線上順序串起來、相互校正、持續(xù)推進。真正的難點，不只是「這一輪會不會推理」，而是系統(tǒng)能不能在不同階段之間保持coherent progress。

不只是「多幾個Agent」

AiScientist 的核心設(shè)計理念，可以概括為一句話：thin control over thick state。

在這套系統(tǒng)中，頂層Orchestrator負責(zé)階段級控制與任務(wù)推進，相當于一個輕量的總調(diào)度器；而真正承載項目記憶的，則不是一輪輪對話上下文，而是workspace中持續(xù)演化的分析、計劃、代碼、日志與實驗記錄。

換句話說，AiScientist并不試圖讓某一個Agent把所有細節(jié)都「記在腦子里」，而是讓不同角色圍繞一個持續(xù)更新的項目狀態(tài)展開協(xié)作。頂層控制保持輕量，底層狀態(tài)保持厚實，系統(tǒng)因此可以在長程任務(wù)中逐步積累，而不是反復(fù)從頭開始。

這也是這篇工作的一個重要判斷：讓系統(tǒng)跑長的關(guān)鍵，不只是多智能體分工本身，而是這些分工能否建立在穩(wěn)定、可繼承的項目狀態(tài)之上。

File-as-Bus是關(guān)鍵

AiScientist將這種「項目狀態(tài)」進一步落實成了File-as-Bus機制。

簡單理解，它不是把文件當作普通附件來存放，而是把文件系統(tǒng)本身當作長程協(xié)作的底座。論文分析、任務(wù)計劃、實現(xiàn)代碼、實驗日志、錯誤記錄和中間結(jié)果，都被持續(xù)寫回workspace，成為后續(xù)階段可以重新讀取和利用的 durable artifacts。

這意味著，系統(tǒng)不是依賴對話里殘留的幾句摘要繼續(xù)工作，而是可以圍繞真實存在的項目證據(jù)來推進下一步?jīng)Q策。對于長程研究工程來說，這一點非常重要。因為前一階段的一個判斷，可能會在幾個小時后才以實驗異常的形式暴露出來；如果這些中間狀態(tài)無法被完整保留，后續(xù)階段就很難準確歸因，更難在正確位置做修補。

也因此，AiScientist的重點并不只是「讓多個Agent配合起來」，而是讓整個系統(tǒng)具備一種更穩(wěn)定的外部記憶能力。真正需要被傳遞的，不是某一輪的表面結(jié)論，而是項目在不同階段里逐步積累下來的狀態(tài)本身。

實驗結(jié)果

在PaperBench上，AiScientist相對最佳匹配基線平均提升約10.54 分。這一結(jié)果說明，它并不只是在某個單獨case上有效，而是能夠在從論文復(fù)現(xiàn)到完整工程實現(xiàn)的高難度場景中，穩(wěn)定拉開與現(xiàn)有方法的差距。

在MLE-Bench Lite上，AiScientist達到了81.82% Any Medal，說明它不只擅長「把系統(tǒng)先跑起來」，也能在更接近真實競賽和研究迭代的場景中持續(xù)優(yōu)化結(jié)果。

更重要的是，這種提升并不是簡單靠「多交互幾輪」堆出來的。論文明確指出：More interaction alone is not enough.額外的輪次只有建立在前面正確積累的狀態(tài)之上，才會真正轉(zhuǎn)化為長程能力。否則，更多交互反而可能帶來更高成本和更多噪聲。

機制分析進一步說明了這一點。移除File-as-Bus后，AiScientist在PaperBench上下降6.41分，在MLE-Bench Lite上Any Medal下降31.82個百分點。這表明，狀態(tài)連續(xù)性并不是一個「錦上添花」的設(shè)計，而是長程研究工程里真正影響系統(tǒng)能否持續(xù)推進的關(guān)鍵因素之一。

與此同時，論文也沒有把File-as-Bus說成唯一答案。實驗同樣表明，hierarchical orchestration也在性能提升中起到了重要作用。換句話說，AiScientist的價值并不來自某一個單獨組件，而是來自orchestration與state continuity 共同支撐的系統(tǒng)設(shè)計。

啟示

如果只看結(jié)果，AiScientist的貢獻似乎只是「分數(shù)更高了」。但從論文給出的機制分析來看，這項工作的價值其實更立體。

第一，長程ML research engineering不只是很多l(xiāng)ocal problem的堆疊，它本身還是一個更難的 systems problem。論文理解、環(huán)境配置、資源下載、代碼實現(xiàn)、實驗執(zhí)行、誤差診斷，這些環(huán)節(jié)單獨拿出來，很多都已經(jīng)是足夠困難的技術(shù)任務(wù)；更難的是，要把這些環(huán)節(jié)在長時間跨度里順序接起來、相互校正、持續(xù)推進。也正因為如此，決定系統(tǒng)成敗的，不只是某一步做得好不好，而是整個流程能否在跨階段推進中保持連貫。

第二，AiScientist的關(guān)鍵，不只是用了multi-agent，而是把狀態(tài)連續(xù)性做成了系統(tǒng)能力。層級化orchestration當然重要，它幫助不同角色聚焦不同階段；但真正讓這套組織形式產(chǎn)生復(fù)利的，是項目狀態(tài)能否以durable artifact的形式被穩(wěn)定保存、讀取、繼承和繼續(xù)利用。換句話說，multi-agent是組織形式，狀態(tài)連續(xù)性才是這套系統(tǒng)真正跑長的基礎(chǔ)。

第三，File-as-Bus的價值，更多體現(xiàn)在后期refinement，而不只是前期搭一個能跑的腳手架。從消融結(jié)果看，去掉File-as-Bus后，系統(tǒng)未必立刻連基礎(chǔ)可運行性都失去，但在更依賴后期優(yōu)化和結(jié)果逼近的指標上，會出現(xiàn)更明顯退化。這意味著它真正帶來的，不只是executability，而是fidelity：讓系統(tǒng)能在多輪診斷、修補、對齊和優(yōu)化中，把每一輪試錯都建立在前一輪留下的有效證據(jù)之上。

為什么這件事值得關(guān)注？

從更大的視角看，AiScientist指向的是一個比benchmark分數(shù)更值得關(guān)注的問題：AI能否真正進入科研流程，而不只是停留在某一個局部環(huán)節(jié)。

長程ML research engineering既是很多困難local problem的串聯(lián)，也是一個更難的systems problem。每個局部環(huán)節(jié)都足夠復(fù)雜，而把這些環(huán)節(jié)接起來、在多輪反饋里保持一致性、讓前一輪決策真正服務(wù)于后一輪推進，則更難。

AiScientist給出的一個重要啟示是：未來的AI科研系統(tǒng)，關(guān)鍵不只是模型會不會推理、會不會寫代碼、會不會調(diào)用工具，而是能否在長時間跨度里穩(wěn)定保存、繼承并利用項目狀態(tài)。

這也是為什么這項工作值得被放在更廣的AI for Research進展中來看。它討論的不是單步能力的再增強，而是 AI 如何真正從「輔助一個環(huán)節(jié)」走向「接手一條流程」。

與此同時，團隊也在將AiScientist從benchmark中的評測對象，逐步推進為真實可用的軟件系統(tǒng)。換句話說，這項工作并不只是想回答「分數(shù)能不能提高」，也想回答「AI 能不能真正走進實驗、復(fù)現(xiàn)、調(diào)參和迭代的日常流程里，進一步解放實驗層面的生產(chǎn)力」。

總結(jié)

AiScientist試圖推動的，并不只是一個更強的科研Agent，而是一種對長程研究工程的新理解：在真實科研任務(wù)中，真正重要的往往不是單次生成得多漂亮，而是系統(tǒng)能否在跨階段、跨輪次、跨文件的任務(wù)鏈中，把項目狀態(tài)穩(wěn)定存住，并據(jù)此持續(xù)推進。

如果這一點成立，那么AI進入科研流程的方式，也將從「輔助某一步」逐漸走向「接手整條鏈路」。

參考資料：

https://arxiv.org/pdf/2604.13018

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.