網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Karpathy把實(shí)驗(yàn)自動(dòng)化開源3天后

2026-03-25 21:31:42　來源: Ping值焦慮

北京舉報(bào)

分享至

一個(gè)GitHub倉(cāng)庫在72小時(shí)內(nèi)被fork了800多次，不是新模型，是一套讓AI自己優(yōu)化自己的實(shí)驗(yàn)框架。Andrej Karpathy——那個(gè)從OpenAI離職、又在特斯拉帶自動(dòng)駕駛團(tuán)隊(duì)、現(xiàn)在做AI教育的男人——把這套叫autoresearch的東西扔了出來。

簡(jiǎn)單說：你讓Claude Code跑一個(gè)循環(huán)，幾小時(shí)或幾天后，得到一個(gè)更好的模型。整個(gè)過程寫在program.md里，像一份"技能說明書"。

但有個(gè)程序員發(fā)現(xiàn)，這玩意根本不用來訓(xùn)模型，改改就能讓AI自己學(xué)會(huì)寫更好的代碼。

從"煉丹"到"碼農(nóng)"：同一套邏輯換了個(gè)場(chǎng)景

Karpathy的原版設(shè)計(jì)是給大模型訓(xùn)練用的。核心就一句：用實(shí)驗(yàn)結(jié)果驅(qū)動(dòng)下一代版本的生成。你跑實(shí)驗(yàn)、看指標(biāo)、自動(dòng)改代碼、再跑，循環(huán)往復(fù)。

這位程序員（我們叫他作者）不搞模型訓(xùn)練，但天天用Claude Code寫代碼。他的痛點(diǎn)很實(shí)在：怎么讓AI生成的代碼既符合團(tuán)隊(duì)規(guī)范，又能過得了人眼審查？

他現(xiàn)在靠"感覺"優(yōu)化——試個(gè)最佳實(shí)踐，覺得有用就加進(jìn)工作流；代碼審查發(fā)現(xiàn)問題，再回頭修流程。這辦法能用，但不夠科學(xué)。

看到autoresearch之后，他意識(shí)到：既然能自動(dòng)優(yōu)化訓(xùn)練流程，為什么不能自動(dòng)優(yōu)化"讓AI寫代碼"的流程？

把代碼生成變成可測(cè)量的實(shí)驗(yàn)

作者設(shè)計(jì)了一個(gè)技能自動(dòng)改進(jìn)循環(huán)，對(duì)標(biāo)Karpathy的原版框架。

先定義一個(gè)標(biāo)準(zhǔn)技能流程：接收任務(wù)→探索→規(guī)劃→執(zhí)行→審查。去掉需要人類介入的交互環(huán)節(jié)，純自動(dòng)化。

關(guān)鍵是讓實(shí)驗(yàn)可重復(fù)、指標(biāo)可比較。你需要一組測(cè)試用例：輸入是任務(wù)描述，輸出是參考代碼。

原版autoresearch用一個(gè)指標(biāo)（val_bpb，驗(yàn)證集比特/字符）決定版本生死。但代碼質(zhì)量沒法用一個(gè)數(shù)概括，作者設(shè)計(jì)了多維度評(píng)分：

最終簡(jiǎn)化為二元判斷：通過/不通過。夠粗暴，但跑得起來。

循環(huán)結(jié)構(gòu)照搬原版：生成候選版本→跑測(cè)試→計(jì)算指標(biāo)→選最優(yōu)→進(jìn)入下一輪。每輪狀態(tài)獨(dú)立，不依賴歷史記憶。

理論上可行，坑還在后面

作者自己也列了一堆待解難題：

測(cè)試用例從哪來？真實(shí)業(yè)務(wù)代碼涉密，公開數(shù)據(jù)集又不夠貼合。指標(biāo)設(shè)計(jì)更是玄學(xué)——代碼可讀性和執(zhí)行效率經(jīng)常打架，怎么加權(quán)？

還有版本爆炸問題。Karpathy訓(xùn)模型可以跑幾天，代碼技能迭代如果每次都要完整執(zhí)行測(cè)試集，成本和時(shí)間怎么控制？

最麻煩的是反饋延遲。模型訓(xùn)練的損失曲線實(shí)時(shí)可見，代碼質(zhì)量的"好"往往要等人類審查后才能確認(rèn)，這打破了自動(dòng)循環(huán)的前提。

作者說這些坑得在實(shí)現(xiàn)和早期運(yùn)行中才能摸清。他打算先跑起來，有初步結(jié)果再分享。

一個(gè)值得玩味的細(xì)節(jié)

整個(gè)設(shè)計(jì)里最"產(chǎn)品經(jīng)理"的決策，是那個(gè)二元評(píng)分。作者明明列了多維度指標(biāo)，最后卻選了通過/不通過。

他的解釋藏在字里行間：設(shè)計(jì)階段要簡(jiǎn)單，跑起來再迭代。這和Karpathy的原版思路一致——先讓循環(huán)轉(zhuǎn)起來，再優(yōu)化測(cè)量精度。

現(xiàn)在倉(cāng)庫里只有框架描述，沒有實(shí)現(xiàn)代碼。但fork數(shù)還在漲，顯然不少人想試試：如果AI能自己學(xué)會(huì)寫更好的代碼，程序員的工作會(huì)變成什么？

作者最后留了個(gè)問題沒答：當(dāng)AI開始優(yōu)化"讓AI寫代碼"的流程，人類審查者在這個(gè)循環(huán)里，到底算什么角色？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.