網易首頁 > 網易號 > 正文申請入駐

Karpathy把訓練AI那套搬到寫代碼

2026-03-25 21:31:33　來源: Ping值焦慮

北京舉報

分享至

Andrej Karpathy開源了一個叫autoresearch的項目，核心邏輯簡單粗暴：讓AI自己跑實驗、看結果、改參數，循環幾天，模型就變強了。這套原本用來訓練大語言模型的自動化流程，現在被人搬到了日常寫代碼的場景里。

一位長期用Claude Code的開發者看完代碼后，直接動手改了個版本。他的目標不是訓練模型，而是讓AI助手自己優化自己的"工作習慣"——怎么拆解任務、怎么查代碼庫、怎么保證輸出風格一致。這相當于給Claude裝了個自動迭代的反饋系統。

從煉丹到寫代碼，同一套自動化邏輯

Karpathy的原版autoresearch針對的是LLM訓練場景。你定好一個指標（比如驗證集上的bits per byte），然后讓Claude Code自動改訓練代碼、跑實驗、記錄結果。能提升指標就保留，不行就回滾。整個過程可以無人值守跑上幾天。

這位開發者平時寫代碼已經高度依賴Claude Code，但他發現自己的"使用方式"很隨意。測試新技巧靠感覺，優化流程靠人工復盤。他形容這是"不科學"的——沒有對照實驗，沒有穩定指標，改進全靠拍腦袋。

于是他決定把autoresearch的骨架抽出來，套到coding skill的優化上。

一個典型的coding skill長這樣：接收任務→探索代碼庫→制定計劃→執行→自我審查。他要做的，就是設計一套實驗機制，讓這個流程本身自動進化。

三個硬指標，卡住AI的 output 質量

原版autoresearch只用單一指標（val_bpb）決定生死，但寫代碼顯然更復雜。這位開發者設計了三個關鍵指標：

第一，代碼是否通過測試。這是底線，沒商量。

第二，是否符合項目規范。包括命名風格、文件組織、注釋習慣——這些往往寫在項目的CONTRIBUTING.md或者團隊內部文檔里，但AI經常選擇性忽略。

第三，人工審查通過率。模擬真實的code review場景，看AI生成的代碼能不能過得了人類同事那關。

為了簡化，他先用二元評分：過/不過。未來可以擴展成更細粒度的打分，但二進制足夠啟動循環。

無狀態循環：每次迭代都是全新的開始

整個auto-improve loop的設計刻意保持無狀態。每次迭代從當前最佳版本出發，生成一個候選變體，跑完整套測試，根據三個指標決定是晉升為新baseline還是丟棄。

這意味著系統不會"記住"之前失敗的嘗試，也不會被局部最優困住。每次都有機會徹底重構skill的結構，而不是在現有框架上修修補補。

這種設計有個副作用：如果某次迭代把skill改崩了，直接丟棄就行，不會污染后續實驗。代價是可能重復探索相似的空間，但換來了穩定性和可并行性。

開發者提到，這套機制理論上可以讓AI完全自主地"訓練"自己的coding skill，針對特定代碼庫和團隊習慣持續優化，不需要人類盯著每一步。

落地前的三道坎

想法很干凈，實現起來還有一堆麻煩。

測試用例從哪來？需要大量真實的"任務-參考代碼"pair，覆蓋不同復雜度、不同領域的場景。自己造數據容易過擬合，用生產代碼又有隱私問題。

指標怎么量化？"符合規范"和"通過審查"都有主觀成分。兩個人review同一份代碼可能給出不同結論，怎么讓AI學會這種模糊判斷？

還有成本問題。每個候選版本都要跑完整套測試，如果skill本身調用API或者操作數據庫，實驗開銷會指數級膨脹。

這些坑不會在設計階段顯形，只有真正跑起來才知道深淺。開發者說他會在有初步結果后繼續分享——目前還停留在紙面推演。

如果這套機制跑通，意味著AI助手的進化方式會發生質變。不再是廠商統一推送模型更新，而是每個團隊、每個代碼庫都能養出自己的"定制化AI同事"。你的Claude和我的Claude，半年后可能完全是兩種工作風格。

這種分化是效率的極致，還是協作的噩夢？當AI的技能樹開始碎片化，人類程序員該怎么跟不同"性格"的AI搭檔？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI“搶飯碗”，硅谷大裁員！一線工程師戳破真相：AI效率被嚴重高估，人類被倒逼成審核員，工作量是過去10倍

華爾街見聞官方 2026-03-25 23:20:49
50 跟貼 50
同樣用AI，為什么有的人用得更好？Anthropic新報告揭秘

智東西 2026-03-25 19:58:30
1 跟貼 1

Anthropic沖塔ASI自進化，要做全球操作系統！Claude OS一刀砍向6.4萬億帝國

新智元 2026-03-25 19:40:39
4 跟貼 4

跨越兩千公里！成都都市圈亮相杭州，共筑人工智能產業新生態

每日經濟新聞 2026-03-25 23:06:05
0 跟貼 0
華為工程師，偷偷用中文寫代碼，這事兒在硅谷炸鍋了

逗比星球大冒險 2026-03-24 09:40:45
1 跟貼 1

這不是實驗，是拿命開玩笑

娟姐配音 2026-03-24 07:53:52
7 跟貼 7

3月25日（報道時間），河南。孩子想到馬路對面找爸爸，一路"疾跑"奔向馬路對面險釀悲劇，媽媽擔心孩子

中安在線 2026-03-25 11:55:16
1127 跟貼 1127
老婆做實驗告訴老公做人道理，老公聽完明白了老婆“良苦用心”

重慶頭條官方 2026-03-25 17:35:26
0 跟貼 0

AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
Claude Code之父，推特親傳使用技巧，超 500 萬人關注

機器之心Pro 2026-01-05 13:26:18
0 跟貼 0
開源鴻蒙重寫世界，從一行微小的代碼開始

量子位 2025-12-31 01:50:02
0 跟貼 0
實驗操作不當，生命代價沉重！安全教育如何真正走進學生心里？

徐云流浪中國 2026-03-26 00:40:13
0 跟貼 0
高考地理:從2025年廣東第19題體會地貌演變試題的解題思路

譚老師地理大課堂 2026-03-25 21:01:13
0 跟貼 0
目錄 | 《中國現代教育裝備》雜志2026年3月高教版

中國高等教育學會 2026-03-25 18:37:53
0 跟貼 0
微信放開入口，我用鵝廠“官配蝦”試著跑了“一人公司”

智東西 2026-03-25 21:57:56
2 跟貼 2
中遠海運恢復海灣國家訂艙船舶暫不過霍爾木茲海峽

財聯社 2026-03-25 20:20:04
3769 跟貼 3769
沙特410億買下字節游戲業務，王爺這波居然賺了？

酷玩實驗室 2026-03-25 18:33:16
1 跟貼 1
Kimi新架構讓馬斯克嘆服！17歲高中生作者一戰成名

量子位 2026-03-17 14:47:09
139 跟貼 139
美國模型飛機試飛，鏡頭一轉事不簡單，指揮員吃了熊心豹子膽

桔子笑笑 2026-03-23 14:56:42
1 跟貼 1
女子稱找高鐵乘務員投訴一名男子在列車口抽煙，被發了一個口罩，當事人：乘務員的態度很好，但自己對這種情況無語，希望高鐵全面禁煙

洪觀新聞 2026-03-25 14:56:54
2127 跟貼 2127
日本自衛隊現役軍官攜刀強闖中使館中國軍號連續發聲

看看新聞Knews 2026-03-25 17:33:25
1461 跟貼 1461
德總統稱"對美信任已然喪失" 得到法國軍方強烈共鳴

紅星新聞 2026-03-25 13:54:18
325 跟貼 325
半年干掉8位核心高管，理想汽車的激進換血轉型給企業什么啟示？

商道童言 2026-03-25 22:13:45
0 跟貼 0
參數不撒謊，實力會說話！新阿維塔12憑什么降維打擊

嘻哈車 2026-03-24 10:06:10
1 跟貼 1
令美國不安的事發生了：中國開啟爆兵模式，活成自己曾羨慕的樣子

傾世璃歌 2026-03-25 23:30:55
1 跟貼 1
女子用自己的美顏參數拍閨蜜，成片直接把對方嚇一跳！這濾鏡太狠

a好劇共享 2026-03-24 07:50:51
0 跟貼 0
“上海實體交通卡，為啥退不了？”73歲老伯來滬遭遇引發質疑，記者調查：確實難

新民晚報 2026-03-25 18:45:33
81 跟貼 81
內華達州公司法第78章：一個工程師的變量聲明

野生運營 2026-03-25 13:11:20
0 跟貼 0
大廠程序員，都偏愛特斯拉，網友評論說出真相！

幽默狂歡營 2026-03-23 09:18:29
29 跟貼 29
谷歌新算法聲稱能“6倍壓縮KV緩存” 美股存儲板塊承壓走弱

財聯社 2026-03-26 00:30:15
0 跟貼 0
患者的住院檢查報告竟是偽造的，中山五院致歉，珠海市衛健局：全面排查醫療機構外送檢查報告

極目新聞 2026-03-25 17:53:18
816 跟貼 816
直面Seedance2.0挑戰？快手可靈想要年內收入翻倍

華爾街見聞官方 2026-03-25 21:00:18
0 跟貼 0
《GTA6》黑科技曝光！玻璃碎裂精確到“每一片”

游民星空 2026-03-25 19:48:32
2 跟貼 2
10個意向用戶7個無對比！新一代小米SU7，撕開了友商的體面！

i王石頭 2026-03-25 23:28:24
1 跟貼 1
醫保不報銷的十類項目，需提前知曉，趕緊告訴家里人！

飛鷹說事情 2026-03-25 09:35:30
1 跟貼 1
接住那個想找工作的“自閉”年輕人

新京報 2026-03-25 08:41:11
204 跟貼 204
2026年重磅文件發布，農村養老將被徹底顛覆

財經馬紅漫 2026-03-24 20:39:33
0 跟貼 0
歐爾班拒絕同意歐盟向烏提供900億歐元貸款，美方回應

環球網資訊 2026-03-25 11:26:19
475 跟貼 475
項目打地基

制造科技 2026-03-21 19:29:56
0 跟貼 0
五年級數學中點模型求陰影部分面積

天天數理學習分享 2026-03-22 13:47:40
4 跟貼 4

手機 / 數碼

房產 / 家居

Karpathy把訓練AI那套搬到寫代碼

紅極一時卻草草收場，Sora宣布正式關停

伊朗：正在搜捕逃亡美軍

伊朗：正在搜捕逃亡美軍

35歲替補門將，憑什么入選英格蘭隊？

張雪峰遺產分割復雜！是否立遺囑成關鍵

管濤:中東局勢如何影響人民幣匯率走勢?

智己LS8放大招 30萬內8系旗艦+全線控底盤秀實力

態度原創

張雪峰走了，他公司所在的這棟樓高177.8米，耗資超10億！

來永泰同安 赴一場春天的約會

Bigme大我HiBreak Plus彩墨屏手寫手機亮相，預售價1699元

女人過了40歲別胡亂穿衣，趕緊看看這些日系穿搭，舒適又耐看

來永泰同安赴一場春天的約會