網易首頁 > 網易號 > 正文申請入駐

Nature重磅：首個“AI科學家”的誕生！實現端到端自動化科研，撰寫論文通過頂會同行評審

2026-03-26 11:26:22　來源: 生物世界

上海舉報

分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

2024 年 8 月，Sakana AI 公司、不列顛哥倫比亞大學、牛津大學的研究人員組成的研究團隊在預印本平臺 arXiv 推出首個旨在全面自動化科學流程的人工智能工具——“AI 科學家”（AI scientist），其能夠完成科學發現的整個周期——從提出想法到驗證想法再到撰寫科學論文。

如今，一年多過去了，可供研究人員使用的 AI 研究助手種類繁多，其中一些也能夠像“AI 科學家”那樣進行自主研究甚至撰寫科學論文。

而現在， “AI 科學家”再次完成了一個新壯舉——其完成了首個通過人類專家同行評審的完全 AI 生成論文，從研究想法、編寫代碼、運行實驗、繪制和分析數據，到撰寫完整的科學論文，均由“AI 科學家”自主完成。

2026 年 3 月 25 日，研究團隊在國際頂尖學術期刊Nature上發表了題為：Towards end-to-end automation of AI research 的研究論文，更新了 2024 年的這篇描述“AI 科學家”的預印本論文，對其能力進行了適度調整，進一步展示了“AI 科學家”將生成的三篇原創研究論文提交給了一個頂級機器學習會議——國際學習表征會議（ICLR），其中一篇論文通過人類專家同行評審后被接收，且評分超過了該會議接收論文的平均值。

這一成就展示了 AI 在科學貢獻方面日益增強的能力，并預示著科學研究方式可能發生的范式轉變。研究團隊表示，如果負責任地開發，“AI 科學家”等自主系統能夠極大地加速科學發現。

什么是“AI 科學家”？

“AI 科學家”是一個端到端自動化科學研究全過程的 AI 系統，由一系列“智能體”（Agent）構成，這些智能體建立在現有的大語言模型（LLM）之上（例如 GPT-4o 或 Claude Sonnet 4）。

它能夠自主完成從研究構思到論文發表的整個科研生命周期，包括——

1、生成研究想法：在用戶指定的機器學習研究子領域中，迭代生成高水平的研究方向和假設；

2、執行實驗：編寫代碼、運行實驗、可視化結果；

3、撰寫論文：按照標準機器學習會議論文格式，使用 LaTeX 模板逐節撰寫完整論文；

4、進行同行評審：通過自動評審系統評估論文的科學質量。

這個“AI 科學家”有兩種工作模式：基于模板的模（使用人類提供的代碼模板作為起點）和模板自由的模式（完全自主生成代碼并進行更廣泛的科學探索）。

“AI 科學家”工作流程

突破：AI 論文通過同行評審

為了驗證“AI 科學家”的實際能力，研究團隊進行了一項大膽的實驗：將完全由“AI 科學家”生成的研究論文提交給國際學習表征會議（ICLR）的一個研討會進行同行評審。ICLR 是由圖靈獎得主Yoshua Bengio和楊立昆于 2013 年創立的深度學習領域學術會議，其與 NeurIPS、ICML 并稱為機器學習領域主要會議，在谷歌學術會議期刊排名中位列全球前十。

整個實驗過程完全透明且符合倫理規范：

會議組織者事先知情并同意；
人類評審專家被告知有部分論文是 AI 生成的，但不知道具體是哪幾篇；
所有 AI 生成的論文在評審后都會被撤回，避免在科學界建立明確標準前設定先例。

結果令人震驚：“AI 科學家”提交的三篇 AI 生成論文中，有一篇獲得了人類評審專家的平均分 6.33 分（個人評分分別為 6、7、6），成為第一篇完全由 AI 生成并通過了標準的科學同行評審流程的研究論文，這一分數超過了該研討會接收論文的平均分數。這篇題為：Compositional regularization: Unexpected obstacles in enhancing neural network generalization（組合正則化：增強神經網絡泛化能力中的意外障）的論文報告了一個負面結果，與研討會關注“有趣負面結果”的主題高度契合。

“AI 科學家”生成的一篇論文的精選部分，該論文已通過同行評審，在頂級機器學習會議的研討會上被接受

自動評審系統：與人類評審者媲美

“AI 科學家”不僅能夠生成論文，還配備了“自動評審器”來評估論文質量。這個自動評審系統的表現如何？

根據論文中的對比數據，自動評審器在關鍵指標上與人類評審者表現相當甚至更優：

平衡準確率：自動評審器 69% vs 人類評審者 66%；
F1 分數：自動評審器 0.62 vs 人類評審者 0.49；
曲線下面積（AUC）：自動評審器 0.69 vs 人類評審者 0.65。

即使在訓練數據截止日期后的 2025 年的新論文上，自動評審器仍保持 66% 的平衡準確率，與人類評審者水平相當。

系統工作原理：四階段科研流程

“AI 科學家”按照四個主要階段順序工作——

第一階段：想法生成與篩選，系統迭代生成研究想法檔案，為每個方向生成描述性標題、研究理由和實驗計劃。然后通過連接語義學者API和網絡訪問工具，篩選掉與現有文獻過于相似的想法。

第二階段：實驗執行與可視化，系統執行提出的實驗計劃，可視化結果，并為后續寫作做好筆記記錄。在模板自由模式下，系統會從零開始生成代碼，并通過樹搜索優化實驗執行。

第三階段：論文撰寫，系統使用筆記和圖表，按照會議論文模板逐節填充內容，通過查詢獲取相關文獻，并在 20 輪比較中為論文添加適當引用。

第四階段：自動評審，生成的論文由自動評審系統評估，提供數值評分、優缺點列表和接受/拒絕的二元決策。

“AI 科學家”工作的四個階段

意義與局限：科學研究的范式轉變

這項研究的成功標志著 AI 在科學貢獻能力上的重大進步，可能預示著科學研究方式的范式轉變。如果負責任地開發，這種自主系統可以極大地加速科學發現。

當然，研究團隊也坦誠指出了當前系統的局限性：三篇提交論文中只有一篇被接受，且研討會接受率（70%）遠高于主會議（32%）；提交的論文尚不能達到頂尖論文的標準；常見失敗模式包括想法幼稚、實現錯誤、方法嚴謹性不足、實驗錯誤和多種類型的幻覺。

未來展望與倫理考量

隨著 AI 系統能力的指數級增長和成本的指數級下降，“AI 科學家”的性能有望大幅提升。未來，同樣的方法可以應用于其他科學領域，例如自動化化學實驗室。

然而，自動化論文生成能力也帶來了重要的倫理和社會關切——可能壓垮同行評審系統、人為夸大研究資歷、未經適當認可地挪用他人想法、消除科學家工作崗位、進行不道德或危險的實驗等等。

研究團隊強調，在科學界建立明確的披露和評估標準前，需要謹慎推進這類 AI 系統的應用，確保它們被用于促進而非破壞科學誠信。

“AI 科學家”生成并通過同行評審的論文，是 AI 發展史上的一個重要里程碑。它不僅是技術能力的展示，更是對傳統科研模式的深刻挑戰。當 AI 開始涉足人類智慧的最高殿堂——科學發現時，我們既看到了加速進步的巨大潛力，也面臨著重新定義科研倫理邊界的緊迫任務。

論文鏈接：

https://www.nature.com/articles/s41586-026-10265-5

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.