![]()
Andrej Karpathy最近把自家"煉丹爐"的圖紙公開了。這套叫autoresearch的系統,能讓Claude Code自己跑實驗、改參數、迭代模型,全程不需要人盯著。跑上幾天,出來的模型比原來強一截。
這事讓我挺坐不住的。我不訓大模型,但天天用Claude Code寫代碼。為了讓代碼質量穩一點、風格統一一點,我搞了一堆技能文件、記憶庫、子代理,像個給AI套上馬鞍的馴馬師。但說實話,這套"馬鞍"靠拍腦袋評估——感覺有用就留著,代碼評審出問題再修。
Karpathy這套玩法,等于給AI配了個實驗室。能不能借過來,讓我的代碼生成流程也搞上科學實驗?
從煉丹到寫代碼:同一套骨架
先拆解Karpathy的原版設計。核心就一條:用可重復的實驗驅動迭代。你定好指標,AI改方案,跑實驗,指標漲了留下,跌了滾蛋。循環往復,直到撞上天花板。
這套邏輯搬到寫代碼上,理論上完全走得通。一個典型的開發流程是:接需求→探查→規劃→執行→評審。把"評審"換成自動化測試,整個鏈條就能閉環。
但有個前提被很多人忽略:實驗必須是確定性的。同樣的輸入,跑十遍得出十個結果,這套系統就崩了。代碼生成比模型訓練更難控制——同樣的prompt,溫度參數稍變,輸出可能天差地別。
我設計的測試框架長這樣:給定一個任務描述,AI生成代碼,和人工寫的參考實現做對比。評分用二進制,過或不過,不搞模糊地帶。
三個核心指標盯死:
功能正確性——代碼跑不跑得通,輸出對不對;
風格合規性——有沒有按項目規范來,命名、結構、注釋全算;
可維護性——復雜度、耦合度、測試覆蓋率,硬數字說話。
![]()
每個指標單獨過線,才算這一代"存活"。
無狀態循環:每一代都是白紙
Karpathy的原版有個設計我特別喜歡:每次迭代完全無狀態。系統不記"上一代為什么這么改",只保留當前最優版本和實驗記錄。
這對寫代碼意味著什么?你的"技能文件"——那些告訴AI怎么規劃、怎么評審的prompt——可以被大膽重寫。只要實驗通過,面目全非也沒關系。
我畫了個循環圖:
初始化→生成候選技能→跑測試集→算指標→全過就替換當前最優→否則丟棄→下一輪。
和遺傳算法有點像,但選擇壓力更直接:不是"適應度排序",是"全過才晉級"。
這里藏著個反直覺的點:人工覺得好的改動,實驗可能證偽;AI瞎試的改動,可能意外通關。人的直覺在局部優化上還行,全局搜索基本抓瞎。
有個例子。我手動調prompt時,總覺得"讓AI先寫測試再寫實現"能提升質量。但小規模實驗里,這條規則對通過率的影響是負的——可能是測試寫太死,實現被捆住了手腳。要沒實驗數據,這條"最佳實踐"可能就埋進技能文件里傳家了。
落地前的三道坎
圖紙畫完,真開工才發現坑不少。
第一,測試集從哪來。Karpathy訓模型,數據管道是現成的。寫代碼的測試集得自己攢:真實任務、參考實現、驗收標準,全是體力活。攢少了覆蓋不夠,攢多了維護爆炸。
![]()
第二,指標怎么量化。"風格合規"聽著簡單,落地要拆成可執行的lint規則、AST檢查、甚至AI打分。不同項目規范不同,技能文件得能感知上下文。
第三,時間和錢。Karpathy的煉丹爐跑幾天幾夜,燒的是GPU。Claude Code按token計費,跑一輪實驗可能幾百次API調用。優化循環本身需要優化——比如先在小模型上篩方案,大模型做最終驗證。
還有個更深層的問題:這套系統優化的是"通過測試",不是"寫出好代碼"。測試集覆蓋不到的角落,AI可能學會鉆空子。就像學生刷題刷出高分,真功夫未必長進。
我目前的妥協是測試集里混"隱藏題"——不告訴AI評分標準,只看結果。以及定期人工抽檢,把漏網之魚補進測試集。
從個人工具到團隊基建
如果這套跑通,想象空間不止于個人效率。
團隊里每個項目的代碼規范、評審習慣、技術債分布,都可以被編碼成測試集。新成員不用背文檔,AI自動對齊風格。老項目的隱性知識,被顯式固化成可執行的指標。
更激進一點:不同業務線的技能文件可以雜交。支付團隊的嚴謹+增長團隊的敏捷,實驗說了算,不用開會扯皮。
Karpathy的原話是:「讓模型基于實驗結果自主改進訓練流程」。我把主語換成"代碼生成流程",骨架完全適用。
當然,現在還是"如果"。我剛把測試框架的腳手架搭完,第一批實驗還沒跑完。指標波動大不大、收斂要多少輪、有沒有明顯的局部最優陷阱——全是未知數。
有個細節挺有意思。我最初想把"人類評審時間"也納進指標,畢竟代碼最終給人看。但發現這個變量太噪:同一段代碼,早上審和晚上審,過不過可能全憑審的人心情。最后砍掉了,只留機器可量化的硬指標。
也許這就是自動化改進的代價:你必須先放棄一些"人味",換取可重復性。等系統跑穩了,再想辦法把"人味"加回去。
你寫過最長的一套prompt有多少字?有沒有試過讓AI自己改自己——不是調語氣,是改結構、換策略、甚至推翻重來?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.