337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Autoresearch 全自動寫代碼、寫論文,Claude、Codex、龍蝦紛紛復現

0
分享至

Karpathy 最近搞了一個叫 autoresearch 的項目,一出手就在圈內炸了鍋。

核心思路簡單到離譜:你去睡覺,AI 幫你通宵做實驗

一覺醒來,100 多個實驗結果整整齊齊地擺在面前。

更猛的是,社區在此基礎上迅速衍生出了好幾個項目,把這套"自主研究"的范式推向了更廣的場景——從代碼質量優化,到直接幫你寫論文。

我覺得這可能是 2026 年最有意思的 AI Agent 落地方向之一

Karpathy 的 autoresearch:用 Markdown 編程的研究機構

項目地址:https://github.com/karpathy/autoresearch

Karpathy 在 README 里寫了一段非常有畫面感的話:

曾經,前沿 AI 研究是由肉體大腦完成的,他們在吃飯、睡覺和其他娛樂之間擠出時間做研究,偶爾通過名為"組會"的儀式用聲波互聯來同步進展。那個時代早已過去。研究現在完全屬于在天空中計算集群巨型建筑上運行的自主 AI Agent 群。
Karpathy autoresearch 實驗進展圖

核心玩法是什么?

整個項目只有三個關鍵文件:

文件

作用

誰來改?

prepare.py

數據準備、評估函數、dataloader

? 不能動

train.py

模型架構、優化器、訓練循環

AI 改這個

program.md

AI Agent 的行為指令

? 人類改這個

這個設計太妙了——你不再寫 Python,你寫 Markdown

program.md就是你的"研究組織代碼",定義 AI Agent 的行為模式:怎么實驗、怎么評估、怎么決定保留還是回滾

實驗循環長這樣:

永遠循環:
1. 看當前 git 狀態
2. 改 train.py,嘗試一個想法
3. git commit
4. 跑實驗(5分鐘固定時長)
5. 讀取結果:val_bpb 有沒有降低?
6. 降了 → 保留,推進分支
7. 沒降 → git reset 回滾
8. 記錄到 results.tsv
9. 繼續下一個實驗

每次實驗固定跑 5 分鐘,一個小時跑大約 12 個實驗。你睡 8 小時,AI 就給你跑了將近 100 個實驗。每個實驗的指標、內存、狀態全部記錄在 TSV 里

program.md里有一條非常霸氣的規則:

NEVER STOP: 一旦實驗循環開始,不要暫停問人要不要繼續。人類可能在睡覺。你是自主的。如果沒想法了,想得更深一些。循環持續到人類手動打斷為止

快速上手:

# 安裝 uv 包管理器
curl -LsSf https://astral.sh/uv/install.sh | sh

# 安裝依賴
uv sync

# 下載數據和訓練 tokenizer
uv run prepare.py

# 手動跑一次訓練(驗證環境正常)
uv run train.py

然后開啟你的 Claude Code 或者 Codex,對它說一句話就行:

Hi have a look at program.md and let's kick off a new experiment!

醒來看results.tsv

設計哲學上有幾點我覺得特別精彩:

  • 固定時間預算:所有實驗都是 5 分鐘,不管你怎么改架構改參數,都是公平比較

  • 簡潔性原則:同等效果下更簡單的代碼優先。刪代碼能保持效果?那就是贏

  • 單一指標:只看val_bpb(驗證集 bits per byte),越低越好

  • Git 即記憶:所有實驗都 commit,成功推進分支,失敗就 reset

不過這個項目目前只支持 NVIDIA GPU(在 H100 上測試),對 Mac 或 CPU 用戶不太友好。好在社區已經有了 MacOS、Windows、AMD 的 fork 版本。

Codex Autoresearch:把自主研究推廣到一切有指標的場景

項目地址:https://github.com/leo-lilinxiao/codex-autoresearch


Codex Autoresearch Banner

Karpathy 的 autoresearch 只做 ML 訓練,而codex-autoresearch把這套邏輯泛化到了所有軟件工程場景。

它是一個 OpenAI Codex 的 Skill(技能插件),核心理念:只要你有一個可以衡量的數字指標,它就能幫你自動優化。

你只需用一句話描述目標,Codex 會自動分析項目、確認指標、然后進入自主迭代循環。

看幾個實際場景:

你說的話

Codex 做什么

"提高測試覆蓋率"

掃描項目,提出指標,自動寫測試直到達標

"修復 12 個失敗的測試"

逐個檢測修復,直到全部通過

"為什么 API 返回 503?"

用科學方法排查根因,給出可證偽的假設

"這段代碼安全嗎?"

STRIDE + OWASP 審計,每個發現都有代碼證據

架構上有個很聰明的設計——支持前臺和后臺兩種運行模式。

你可以盯著它跑,也可以讓它后臺無人值守地跑一整夜。

實驗循環跟 Karpathy 的一脈相承:

共享循環核心(永遠循環或 N 次):
1. 審查當前狀態 + git 歷史 + 結果日志
2. 選一個假設
3. 做一個原子改動
4. git commit
5. 跑驗證 + 安全護欄
6. 改進了 → 保留。變差了 → 回滾。崩了 → 修復或跳過
7. 記錄結果
8. 健康檢查
9. 連續 3 次丟棄 → 調整策略;5 次 → 轉向;2 次轉向 → 搜索網絡
10. 重復

它還有一個跨運行學習的機制——每次成功或失敗的經驗都會被提取成"教訓",注入到下一輪實驗的決策中。

安裝也很簡單:

git clone https://github.com/leo-lilinxiao/codex-autoresearch.git
cp -r codex-autoresearch your-project/.agents/skills/codex-autoresearch

然后在 Codex 里說:

$codex-autoresearch
I want to get rid of all the `any` types in my TypeScript code

走開,回來看結果。

Claude Autoresearch:9 個命令覆蓋全場景

項目地址:https://github.com/uditgoenka/autoresearch

這個是面向 Claude Code 的版本,口號很直白:

"設定目標 → Claude 跑循環 → 你醒來看結果"

跟 Codex 版本類似,也是泛化的自主迭代框架,但這個項目在命令體系上做得更完整,提供了 9 個開箱即用的命令:

命令

功能

/autoresearch

核心自主迭代循環

/autoresearch:plan

交互式配置向導

/autoresearch:security

STRIDE + OWASP 安全審計

/autoresearch:ship

發布前檢查工作流

/autoresearch:debug

科學方法自主排 bug

/autoresearch:fix

自動修復所有錯誤

/autoresearch:scenario

場景驅動測試生成

/autoresearch:predict

多角色預分析

/autoresearch:learn

自動生成/更新文檔

它定義了8 條核心規則,這也是整個 autoresearch 范式的精髓:

  1. 循環到底——無限循環或 N 次循環后總結

  2. 先讀后寫——理解上下文再動手

  3. 一次一改——原子性修改,壞了知道是哪步

  4. 機械驗證——不要主觀的"看起來行",要指標

  5. 自動回滾——失敗立刻撤回

  6. 簡單為王——同樣效果,代碼越少越好

  7. Git 即記憶——所有實驗都進 git 歷史

  8. 卡住了就想更深——沒思路的時候重新審視、組合近似成功的實驗、嘗試激進改變

安裝方式(推薦插件安裝):

# 在 Claude Code 中運行
/plugin marketplace add uditgoenka/autoresearch
/plugin install autoresearch@autoresearch

或者手動復制:

git clone https://github.com/uditgoenka/autoresearch.git
cp -r autoresearch/claude-plugin/skills/autoresearch .claude/skills/autoresearch
cp -r autoresearch/claude-plugin/commands/autoresearch .claude/commands/autoresearch

然后試試:

/autoresearch
Goal: Increase test coverage from 72% to 90%
Scope: src/**/*.test.ts, src/**/*.ts
Metric: coverage % (higher is better)
Verify: npm test -- --coverage | grep "All files"
Guard: npm test
AutoResearchClaw:最激進的——直接幫你寫論文

項目地址:https://github.com/aiming-lab/AutoResearchClaw


AutoResearchClaw

前面幾個還是在"優化代碼/模型"的范疇,這貨直接把目標拉到了全自主寫論文

口號:"Chat an Idea. Get a Paper."——你說一個想法,它給你出一篇會議論文


AutoResearchClaw 框架圖

23 個階段,8 個大的 Phase,全自動流水線

Phase A: 研究范圍界定         Phase E: 實驗執行
1. 主題初始化 12. 實驗運行
2. 問題分解 13. 迭代改進(自動修復)

Phase B: 文獻發現 Phase F: 分析與決策
3. 搜索策略 14. 結果分析(多 Agent)
4. 文獻收集(真實 API) 15. 研究決策(PIVOT/REFINE)
5. 文獻篩選 [人工關口]
6. 知識提取 Phase G: 論文寫作
16. 論文大綱
Phase C: 知識綜合 17. 論文初稿
7. 綜合 18. 同行評審(證據檢查)
8. 假設生成(多角色辯論) 19. 論文修訂

Phase D: 實驗設計 Phase H: 最終化
9. 實驗設計 [人工關口] 20. 質量關口 [檢查]
10. 代碼生成 21. 知識歸檔
11. 資源規劃 22. 導出發布(LaTeX)
23. 引用驗證

最終產出一整套交付物:

產出

paper_draft.md

完整論文(引言、相關工作、方法、實驗、結論)

paper.tex

可編譯的 LaTeX(NeurIPS/ICML/ICLR 模板)

references.bib

真實的 BibTeX 引用(來自 OpenAlex、Semantic Scholar、arXiv)

experiment runs/

生成的實驗代碼 + 沙箱運行結果

charts/

自動生成的對比圖表

reviews.md

多 Agent 同行評審

幾個讓我印象深刻的設計:

  1. 引用不造假:文獻通過 OpenAlex、Semantic Scholar 和 arXiv API 獲取真實論文,還有 4 層引用驗證。這一點非常關鍵,其他自動寫論文的工具最大的問題就是瞎編引用

  2. 自愈機制:實驗失敗了會自動診斷修復;假設不成立會自動 PIVOT 換方向

  3. 多 Agent 辯論:假設生成和結果分析都用多視角辯論機制,不是單一 LLM 的"自說自話"

  4. 跨平臺支持:通過 ACP(Agent Client Protocol),支持 Claude Code、Codex CLI、Copilot CLI、Gemini CLI、Kimi CLI 等任何兼容的 Agent 后端

  5. Sentinel 哨兵:后臺質量監控——NaN/Inf 檢測、論文證據一致性檢查、引用相關性打分、反編造守衛

快速上手:

# 克隆安裝
git clone https://github.com/aiming-lab/AutoResearchClaw.git
cd AutoResearchClaw
python3 -m venv .venv && source .venv/bin/activate
pip install -e .

# 交互式配置
researchclaw setup
researchclaw init

# 一條命令跑起來
export OPENAI_API_KEY="sk-..."
researchclaw run --config config.arc.yaml --topic "Your research idea" --auto-approve

它已經 showcase 了 8 個領域(數學、統計、生物、計算、NLP、RL、視覺、魯棒性)的全自主生成論文

橫向對比:四個項目怎么選?

特性

Karpathy autoresearch

Codex Autoresearch

Claude Autoresearch

AutoResearchClaw

核心場景

ML 模型訓練優化

通用代碼質量

通用代碼質量

全自主寫論文

Agent 平臺

任意

OpenAI Codex

Claude Code

多平臺 ACP

自主程度

高(永不停止)

高(后臺模式)

高(無限循環)

極高(23 階段流水線)

迭代粒度

改 train.py

任意代碼改動

任意代碼改動

文獻→實驗→論文

評估方式

val_bpb

自定義指標

自定義指標

多維質量評審

GPU 要求

需要 NVIDIA GPU

不需要

不需要

按任務而定

適合誰

ML 研究者

工程師/開發者

工程師/開發者

科研工作者


老章說兩句

這一波 autoresearch 生態的爆發,本質上是三個趨勢交匯:

第一,Agent 能力到位了。Claude Code、Codex CLI 這些編程 Agent 已經能夠穩定地修改代碼、運行測試、讀取結果。不再是"玩具級"了。

第二,范式足夠簡潔。Karpathy 的核心洞察是——你只需要一個指標 + 一個約束 + 一個循環。這個模式簡單到任何人都能理解、任何場景都能套用。

第三,Git 是天然的 Agent 記憶。每次實驗 commit,失敗就 revert,成功就推進。這比任何復雜的狀態管理系統都優雅。

說白了,這就是把 AI 從"一次性問答"變成"持續迭代"的范式轉變。以前你讓 AI 改代碼,改完就改完了。現在是讓它進入一個無限循環:改、測、評、保留或回滾、再來。跟人類科研的流程一模一樣——提出假設、做實驗、分析結果、決定下一步——只不過它不需要睡覺。

我覺得 AutoResearchClaw 是最值得關注的一個。

雖然全自主寫論文的質量還沒法跟頂級研究者比,但作為科研輔助工具——幫你快速做文獻調研、跑初步實驗、生成論文初稿——已經能省掉大量重復勞動了。

當然,這些項目也有很明顯的局限:

  • 只能優化能量化的東西。"讓代碼更優雅"這種目標它搞不定

  • API 成本不低。跑一夜的實驗,token 費用可能不便宜

  • 創造性有限。它擅長的是在已知空間內暴力搜索,真正顛覆性的創新還是得靠人類

但方向是對的。

當 Agent 能力繼續提升、成本繼續下降,"你定義方向,AI 做苦力"可能真的會成為科研和工程的常態。

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
太平天國的失敗,骨子里的原因是啥?

太平天國的失敗,骨子里的原因是啥?

無心鏡
2026-04-02 08:09:32
退休在幾月份會比較吃虧?

退休在幾月份會比較吃虧?

小虎新車推薦員
2026-04-02 19:23:23
世界公認的9本長腦子書,一生至少讀一次

世界公認的9本長腦子書,一生至少讀一次

洞見
2026-04-02 09:28:09
直播間標題被指“內涵”張雪機車,凱越機車緊急回應:從未否定雪總曾是凱越的靈魂,其離開前持股近36%

直播間標題被指“內涵”張雪機車,凱越機車緊急回應:從未否定雪總曾是凱越的靈魂,其離開前持股近36%

每日經濟新聞
2026-04-02 18:54:18
蔣經國一生有五個孩子,只剩蔣孝嚴在世,蔣萬安名字有什么含義?

蔣經國一生有五個孩子,只剩蔣孝嚴在世,蔣萬安名字有什么含義?

老范談史
2026-04-02 21:13:39
亡母再婚水落石出,國社一錘定音,輿論反撲孫女士,小姨索要回報

亡母再婚水落石出,國社一錘定音,輿論反撲孫女士,小姨索要回報

潮鹿逐夢
2026-04-01 09:33:54
“哎呦我的天吶,太墨跡了!”王濛吐槽《浪姐》直播拖沓,網友:真嘴替

“哎呦我的天吶,太墨跡了!”王濛吐槽《浪姐》直播拖沓,網友:真嘴替

動物奇奇怪怪
2026-04-03 01:57:20
甲骨文給自己開了個玩笑

甲骨文給自己開了個玩笑

智遠同學
2026-04-02 09:02:05
金莎肚子大到藏不住?車展現身被疑懷孕,聲音變粗更添實錘!

金莎肚子大到藏不住?車展現身被疑懷孕,聲音變粗更添實錘!

情感大頭說說
2026-04-03 00:10:45
中國拉瑪西亞第1人?曝14歲邊鋒加盟巴薩+進U15梯隊 董路青訓培養

中國拉瑪西亞第1人?曝14歲邊鋒加盟巴薩+進U15梯隊 董路青訓培養

我愛英超
2026-04-03 06:27:05
童瑤其實挺真實的,明明一直在健身,小腹還是沒法完全平坦

童瑤其實挺真實的,明明一直在健身,小腹還是沒法完全平坦

小光侃娛樂
2026-04-01 13:15:08
6月1日起,車管所跟普通車主沒關系了!公安部新政落地,手機辦完

6月1日起,車管所跟普通車主沒關系了!公安部新政落地,手機辦完

華庭講美食
2026-04-03 00:18:45
“85后”張磊,擬任縣(市、區)委書記!孫悉斌,已任江蘇交通控股總經理!

“85后”張磊,擬任縣(市、區)委書記!孫悉斌,已任江蘇交通控股總經理!

愛意隨風起呀
2026-04-03 05:37:31
陳光標贈張雪勞斯萊斯騎虎難下,想私了熱度太高,二手車商已盯上

陳光標贈張雪勞斯萊斯騎虎難下,想私了熱度太高,二手車商已盯上

小怪吃美食
2026-04-03 04:56:08
德黑蘭的清晨,有點不太對勁

德黑蘭的清晨,有點不太對勁

陸棄
2026-04-02 08:20:03
姆巴佩和女友近照,27歲已是超巨,身家過億,女友是火辣演員

姆巴佩和女友近照,27歲已是超巨,身家過億,女友是火辣演員

大西體育
2026-03-31 13:27:01
許家印,在恒大王國里,過足了官癮、錢癮、色癮,金蟬脫殼玩死了

許家印,在恒大王國里,過足了官癮、錢癮、色癮,金蟬脫殼玩死了

歷史偉人錄
2026-04-01 17:55:34
世界杯戰報:0-4慘敗仍不輸陣,德乒男單兩連敗,8強小莫VS松島

世界杯戰報:0-4慘敗仍不輸陣,德乒男單兩連敗,8強小莫VS松島

求球不落諦
2026-04-02 20:02:01
張雪接受贈車,計劃賣掉捐贈,陳光標兩度回應,真實目的藏不住了

張雪接受贈車,計劃賣掉捐贈,陳光標兩度回應,真實目的藏不住了

叨嘮
2026-04-02 20:08:40
你敢信嗎?太湖底下有2.3米厚的淤泥,可上面才蓋著不到1.9米的水

你敢信嗎?太湖底下有2.3米厚的淤泥,可上面才蓋著不到1.9米的水

掠影后有感
2026-04-01 20:26:07
2026-04-03 09:35:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3303文章數 11122關注度
往期回顧 全部

科技要聞

戰火燒向科技公司!亞馬遜中東云計算中心遭襲

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

體育要聞

邵佳一的改革,從讓每個人踢舒服開始

娛樂要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財經要聞

全球石油危機或將蔓延

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅小車QQ3 EV

態度原創

時尚
藝術
親子
旅游
本地

為什么“這個顏色”成為今年頂流?這樣穿好看又治愈

藝術要聞

吳昌碩『扇畫』老辣古拙

親子要聞

洗頭的舒適區,讓爸爸想出更多帶娃創意

旅游要聞

深圳一網紅公園緊急閉園!一度大批游客涌入,官方:整改15天

本地新聞

從學徒到世界冠軍,為什么說張雪的底氣在重慶?

無障礙瀏覽 進入關懷版