網易首頁 > 網易號 > 正文申請入駐

Karpathy的AI實驗員，5分鐘跑完我3年前的爛尾項目

2026-03-24 10:10:21　來源: 像素與芯片

北京舉報

分享至

周末下午，我把三年前爛尾的研究代碼丟給Claude，然后出門買咖啡。回來時發現它不但修好了環境依賴，還順手做了11組對比實驗。

這不是什么科幻場景。Andrej Karpathy開源的Autoresearch框架，本質上是個"AI實驗員"——一個被關在容器里的LLM代理，只能在train.py里改代碼，5分鐘跑不通就回滾。我好奇的是：它能不能接手那種"作者自己都不想碰"的陳舊代碼庫？

我的測試對象eCLIP，是2021年的一個視覺語言預訓練項目。當時做了專家注意力機制，用醫生的眼動熱力圖引導模型看X光片的關鍵區域。論文發了，代碼扔了，數據集也找不到了。典型的學術廢墟。

這次我換了Ukiyo-eVG數據集——11000張浮世繪，每張都標注了文字描述和對應的人物/物體框。把邊界框轉成高斯熱力圖，模擬當年放射科醫生的眼動數據。任務很直接：模型能不能根據"持扇女子"這種描述，準確找到畫里的對應區域？

評估指標我選了Mean Rank（檢索排序的平均位次）。事后想想，Median Rank（中位位次）會更抗異常值，但當時沒多想——Autoresearch的核心邏輯就是"先跑起來，別卡在完美主義"。

AI實驗員的工作日志：從修廁所到搞科研

我把權限鎖得很死：Claude只能改train.py和scratchpad.md，執行run.sh，其他一律禁止。沒有pip install，沒有git push，更沒有聯網。容器化的訓練環境像個透明魚缸，它在里面撲騰，我在外面干家務。

program.md里我分了三個階段：先調超參數，再改小架構，最后放飛——給它網頁權限去讀論文找靈感。整個循環很機械：假設→編輯→訓練→評估→提交或回滾→重來。每次5分鐘，逼它做快速決策，別過擬合到噪聲里。

第一階段它干的事很"實習生"：學習率從3e-4調到1e-4，batch size翻倍，加了梯度裁剪。scratchpad.md里它寫道："當前最佳驗證Mean Rank 12.3，比基線提升8%。"字跡工整，像實驗室筆記本。

但真正的動作在第二階段。它注意到我的數據加載器有個bug：多線程 workers 數設得太高，小數據集反而被IO拖慢。自己改成了單線程預加載，訓練時間從4分半壓到2分鐘。這不是調參，是修廁所——臟活，但讓整個系統運轉更順。

我意識到Autoresearch的價值不在"發現"，而在"兜底"。那些你明知該做、卻永遠排不上優先級的事，它會默默做完。

第三階段我給了它網頁權限。它讀了三篇CVPR 2024的對比學習論文，嘗試把溫度系數從固定0.07改成可學習參數。結果Mean Rank從11.8掉到14.2，回滾。又試了一種新的難負采樣策略，12.1，沒進步。最后它在scratchpad里寫："當前數據集規?？赡懿蛔阋灾螐碗s采樣策略的收益，建議保持簡單方案。"

這種"知難而退"的判斷力，比很多人類研究生都強。

容器里的創造力：當AI只能改一個文件

Autoresearch的約束設計很有意思。單文件編輯（train.py）強制模塊化思維；5分鐘時限消滅"再訓一輪看看"的僥幸心理；提交/回滾機制讓實驗歷史可追溯。這些不是技術限制，是產品設計——用規則對抗人類的拖延和混亂。

我的program.md寫法也有講究。不是寫"請優化模型"，而是拆成可驗證的步驟：Phase 1驗證數據流，Phase 2驗證訓練穩定性，Phase 3才允許探索性改動。這種"腳手架"思維，和帶新人做項目一模一樣。

Claude在scratchpad里的記錄暴露了它的"思考"模式。它會先復述當前狀態，再列出3-5個可能方向，給每個打分（"高置信/中風險"或"低置信/高收益"），然后選分最高的執行。這不是直覺，是結構化決策——恰好彌補了人類研究員容易"拍腦袋"的弱點。

有個細節讓我印象深刻。某次它想引入LayerNorm的變體，但發現我的代碼里用的是舊版PyTorch的nn.LayerNorm，參數名不兼容。它沒有硬改，而是在scratchpad寫："檢測到版本沖突，當前環境PyTorch 2.1，原代碼基于1.9。建議回退到標準LayerNorm或升級全部依賴。選擇后者，預計耗時15分鐘，超出單次迭代預算。暫緩。"

這種"成本意識"是真人研究員的稀缺品質。我們太容易為了炫技，把項目拖進依賴地獄。

爛尾項目的復活：AI作為學術考古工具

eCLIP的代碼我三年沒碰。Python 3.7，PyTorch 1.9，requirements.txt里還有已經棄用的torchvision版本。Claude的第一步不是跑模型，是升級環境——把代碼遷到Python 3.11，替換廢棄API，重寫數據加載器適配新數據集格式。

這花了它6個迭代周期，約半小時。我在疊衣服，它在做技術債清理。

更意外的是它對新數據集的處理。Ukiyo-eVG的標注格式和原醫學數據完全不同：短語-邊界框對，而不是句子-眼動軌跡。Claude寫了完整的預處理管道，包括把日文描述轉成模型能處理的token序列，以及邊界框到高斯熱力圖的轉換。代碼風格和我的舊代碼保持一致，連變量命名習慣都模仿了。

我檢查時發現它甚至處理了邊界框的坐標系問題——原數據集用的是左上角原點，而我的可視化代碼假設中心原點。它在scratchpad里備注："檢測到坐標系不一致，已做偏移補償。驗證：可視化第42號樣本，熱力圖峰值與標注框中心重合。"

這種"邊做邊驗"的習慣，是很多代碼倉庫缺乏的。

最終跑出的數字：基線Mean Rank 13.4，優化后11.8，相對提升12%。不是突破性進展，但考慮我只寫了program.md和鎖了權限，其余全是它自主完成，這個投入產出比很夸張。

Median Rank我后來手動算了一下：基線9，優化后7.5。更穩健的提升，驗證了我的事后判斷。

局限與邊界：什么情況下AI實驗員會失效

這個周末實驗也暴露了硬邊界。當Claude讀到一篇關于"視覺Transformer動態分辨率"的論文時，它想實現多尺度訓練——但我的單文件約束讓它無法修改模型定義（在另一個文件里）。它在scratchpad里寫了三遍"需要重構代碼結構"，然后放棄。

program.md的寫法成了瓶頸。我分階段的思路適合漸進優化，但不適合范式跳躍。如果我想讓它嘗試完全不同的架構（比如把CLIP換成SigLIP），需要人工重寫約束條件。AI實驗員不是Principal Researcher，是Senior Researcher——能執行，能微調，但戰略方向仍需人類設定。

另一個問題是評估指標的"欺騙性"。Mean Rank在11-14之間波動，但我在TensorBoard里看到，提升主要來自"簡單樣本"的排序改善，難樣本（罕見浮世繪主題）幾乎沒有進步。Claude的優化在數字上好看，實際泛化性存疑。它沒有"看一眼錯誤案例"的直覺，只會追著eval metric跑。

這需要人類介入做定性分析——而Autoresearch的設計恰恰把人類擋在了循環外。5分鐘迭代太快了，我來不及檢查每個commit的質量。

容器安全也有代價。我禁了網絡，所以它讀論文時需要我手動給URL；禁了pip install，所以它想試新庫時只能寫純PyTorch實現。這些限制防止了災難，也限制了探索空間。trade-off很明顯。

最有趣的發現是scratchpad的"認知負荷"管理。Claude會定期壓縮歷史記錄，把早期失敗的實驗總結成"教訓"，釋放token空間給新思路。這種"遺忘"機制讓它能在長序列中保持專注，但也可能導致重復踩坑——如果某條"教訓"被過度簡化，后續條件變化時它不會重新評估。

我在第23個迭代時看到它想重試一種早期被否定的學習率調度，因為"當前訓練穩定性已改善，前提條件變化"。這種元認知能力超出預期。

最終我手動終止了實驗。不是因為跑不下去了，是我要看的東西都看到了：環境遷移、數據適配、超參搜索、架構微調、文獻調研、成本權衡。一個完整的研究周期，壓縮在一個周末的家務間隙里。

代碼我push到了GitHub，包括完整的scratchpad.md——那是AI實驗員的工作日志，比我的論文附錄都詳細。有人想復現的話，從docker build到program.md模板，全部開源。

至于eCLIP本身？我還是不會繼續做這個方向。但下次有別的爛尾項目，我知道該找誰了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.