![]()
一個(gè)GitHub倉(cāng)庫在72小時(shí)內(nèi)被fork了800多次,不是新模型,是一套讓AI自己優(yōu)化自己的實(shí)驗(yàn)框架。Andrej Karpathy——那個(gè)從OpenAI離職、又在特斯拉帶自動(dòng)駕駛團(tuán)隊(duì)、現(xiàn)在做AI教育的男人——把這套叫autoresearch的東西扔了出來。
簡(jiǎn)單說:你讓Claude Code跑一個(gè)循環(huán),幾小時(shí)或幾天后,得到一個(gè)更好的模型。整個(gè)過程寫在program.md里,像一份"技能說明書"。
但有個(gè)程序員發(fā)現(xiàn),這玩意根本不用來訓(xùn)模型,改改就能讓AI自己學(xué)會(huì)寫更好的代碼。
從"煉丹"到"碼農(nóng)":同一套邏輯換了個(gè)場(chǎng)景
Karpathy的原版設(shè)計(jì)是給大模型訓(xùn)練用的。核心就一句:用實(shí)驗(yàn)結(jié)果驅(qū)動(dòng)下一代版本的生成。你跑實(shí)驗(yàn)、看指標(biāo)、自動(dòng)改代碼、再跑,循環(huán)往復(fù)。
這位程序員(我們叫他作者)不搞模型訓(xùn)練,但天天用Claude Code寫代碼。他的痛點(diǎn)很實(shí)在:怎么讓AI生成的代碼既符合團(tuán)隊(duì)規(guī)范,又能過得了人眼審查?
他現(xiàn)在靠"感覺"優(yōu)化——試個(gè)最佳實(shí)踐,覺得有用就加進(jìn)工作流;代碼審查發(fā)現(xiàn)問題,再回頭修流程。這辦法能用,但不夠科學(xué)。
看到autoresearch之后,他意識(shí)到:既然能自動(dòng)優(yōu)化訓(xùn)練流程,為什么不能自動(dòng)優(yōu)化"讓AI寫代碼"的流程?
![]()
把代碼生成變成可測(cè)量的實(shí)驗(yàn)
作者設(shè)計(jì)了一個(gè)技能自動(dòng)改進(jìn)循環(huán),對(duì)標(biāo)Karpathy的原版框架。
先定義一個(gè)標(biāo)準(zhǔn)技能流程:接收任務(wù)→探索→規(guī)劃→執(zhí)行→審查。去掉需要人類介入的交互環(huán)節(jié),純自動(dòng)化。
關(guān)鍵是讓實(shí)驗(yàn)可重復(fù)、指標(biāo)可比較。你需要一組測(cè)試用例:輸入是任務(wù)描述,輸出是參考代碼。
原版autoresearch用一個(gè)指標(biāo)(val_bpb,驗(yàn)證集比特/字符)決定版本生死。但代碼質(zhì)量沒法用一個(gè)數(shù)概括,作者設(shè)計(jì)了多維度評(píng)分:
最終簡(jiǎn)化為二元判斷:通過/不通過。夠粗暴,但跑得起來。
循環(huán)結(jié)構(gòu)照搬原版:生成候選版本→跑測(cè)試→計(jì)算指標(biāo)→選最優(yōu)→進(jìn)入下一輪。每輪狀態(tài)獨(dú)立,不依賴歷史記憶。
理論上可行,坑還在后面
![]()
作者自己也列了一堆待解難題:
測(cè)試用例從哪來?真實(shí)業(yè)務(wù)代碼涉密,公開數(shù)據(jù)集又不夠貼合。指標(biāo)設(shè)計(jì)更是玄學(xué)——代碼可讀性和執(zhí)行效率經(jīng)常打架,怎么加權(quán)?
還有版本爆炸問題。Karpathy訓(xùn)模型可以跑幾天,代碼技能迭代如果每次都要完整執(zhí)行測(cè)試集,成本和時(shí)間怎么控制?
最麻煩的是反饋延遲。模型訓(xùn)練的損失曲線實(shí)時(shí)可見,代碼質(zhì)量的"好"往往要等人類審查后才能確認(rèn),這打破了自動(dòng)循環(huán)的前提。
作者說這些坑得在實(shí)現(xiàn)和早期運(yùn)行中才能摸清。他打算先跑起來,有初步結(jié)果再分享。
一個(gè)值得玩味的細(xì)節(jié)
整個(gè)設(shè)計(jì)里最"產(chǎn)品經(jīng)理"的決策,是那個(gè)二元評(píng)分。作者明明列了多維度指標(biāo),最后卻選了通過/不通過。
他的解釋藏在字里行間:設(shè)計(jì)階段要簡(jiǎn)單,跑起來再迭代。這和Karpathy的原版思路一致——先讓循環(huán)轉(zhuǎn)起來,再優(yōu)化測(cè)量精度。
現(xiàn)在倉(cāng)庫里只有框架描述,沒有實(shí)現(xiàn)代碼。但fork數(shù)還在漲,顯然不少人想試試:如果AI能自己學(xué)會(huì)寫更好的代碼,程序員的工作會(huì)變成什么?
作者最后留了個(gè)問題沒答:當(dāng)AI開始優(yōu)化"讓AI寫代碼"的流程,人類審查者在這個(gè)循環(huán)里,到底算什么角色?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.