網易首頁 > 網易號 > 正文申請入駐

UCSD 推出 AIBuildAI 智能體，斬獲OpenAI MLE-Bench榜單第一

2026-03-30 13:03:41　來源: 機器之心Pro

河北舉報

分享至

近日，加州大學圣地亞哥分校的研究團隊開發了 AIBuildAI 智能體，可以全自動構建 AI 模型（包括模型設計，代碼實現，模型訓練，調參，性能評估，迭代優化）。團隊成員包括博士生 Ruiyi Zhang，Peijia Qin，Qi Cao，Li Zhang，以及該校副教授 Pengtao Xie。

視頻地址：https://mp.weixin.qq.com/s/8sb5CpBLb3PEQ7IGY6A5ug?click_id=35

開發一個高性能 AI 模型非常耗時費力，工程師需要反復設計模型、寫代碼實現模型、構建訓練流水線、執行超參數搜索，并根據實驗結果對模型進行迭代優化。這一過程對專業知識的依賴程度極高，人力成本也居高不下，非常耗費時間。為了解決這一問題，UCSD 的研究團隊開發了 AIBuildAI 智能體，充當虛擬的 AI 工程師或 AI 科學家，全自動構建 AI 模型。用戶無需編程，只需要用自然語言對任務進行描述，AIBuildAI 自動設計模型，寫代碼實現模型，訓練模型，調節超參數，評估模型性能，并根據實驗結果對模型進行迭代優化。

AIBuildAI 在 OpenAI MLE-Bench 基準測試的 75 個任務上以 63.1% 的獲獎率位居榜首（截至 2026 年 3 月 6 日），其表現可媲美經驗豐富的 AI 工程師，實現了從任務描述到可部署模型的端到端自動化。

論文標題：AIBuildAI:An AI agent that automatically builds AI models
項目地址：https://github.com/aibuildai/AI-Build-AI
論文鏈接：https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf
OpenAI MLE-Bench 測評結果：https://github.com/openai/mle-bench/pull/126

AIBuildAI 的設計靈感來源于真實的 AI 研究團隊的工作流程。在典型的 AI 項目中，技術負責人統籌多條并行探索路線，研究員提出建模策略，工程師實現訓練流水線，負責人定期評審結果、分配資源。AIBuildAI 將這一工作流抽象為一個多智能體搜索過程：將整個開發周期分解為多個專職智能體協作執行，并通過集中化的管理器進行統一調度。

技術核心

管理智能體（Manager Agent）

扮演項目運行負責人的角色，全程不直接寫代碼或執行訓練任務，而是通過讀取磁盤上的實驗記錄來做出下一步決策。他在兩種模式之間切換：協調模式下決定下一步應該調用哪一個子智能體；篩選模式下依據訓練信號保留有潛力的候選方案并終止無效方案來節約時間以及計算成本，并在進展停滯時觸發修訂或者終止。

研究員智能體（Designer Agent）

負責想方案和改方案兩項核心任務。在設計模式下，他直接探索數據集特征，提出多個差異化、可行性強的建模計劃；在修訂模式下，他仔細診斷失敗原因（過擬合、欠擬合、收斂問題或者數據異常），并提出具體的改進方案供編碼智能體重新實現。

編碼智能體（Coder Agent）

將設計方案轉化為可運行的訓練與推理流水線。編碼智能體的目標是確保代碼正確完整，而非追求最終性能。他會在寫完代碼后執行一次短時驗證運行以確保流水線可以端到端運行，隨后將完整訓練交由調優器處理。

調優器智能體（Tuner Agent）

接管訓練過程，在已有代碼基礎上專注于性能提升。它采用先快速校準、再決定是否投入的策略：先跑一段簡短的熱身訓練觀察學習曲線，再決定是延長當前方案還是進行超參數調整。整個過程在固定計算預算內完成。

系統設計

AIBuildAI 在系統層面還具備三項關鍵特征：

并行效率：多條解決方案軌跡在獨立工作空間中并發運行，避免互相干擾，允許系統同時探索多個方法并將資源集中于表現好的候選方案。
可復現性：所有智能體通過存儲于磁盤中產出物（方案文檔、配置文件、日志、檢查點）進行協調，而非依賴內存中的臨時信息，確保每一步操作均可事后審查與復現。
安全性：智能體僅被允許寫入自身軌跡目錄，數據集以只讀方式掛載，每次調用均生成可審計的操作日志。

實驗結果

AIBuildAI 在 OpenAI MLE-Bench 基準測試上進行了評估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench 包含了來自 Kaggle 競賽的真實任務，涵蓋圖像分類，目標檢測 / 分割、自然語言理解與生成、時序信號建模以及結構化表格預測等多個類別，共 75 個任務，要求系統完成從原始數據到可提交模型的全流程開發。

截止 2026 年 3 月 6 號的榜單，AIBuildAI 以 63.1% 的綜合獲獎率位居 MLE-Bench 總榜第一。上圖展示了 AIBuildAI（橙條）的綜合性能在所有的對比方法中實現了性能最佳。

上圖展示了 AIBuildAI 在語言理解與生成任務上的詳細結果。上半部分以 Billion Word Imputation 為例，完整呈現了 AIBuildAI 各智能體的運行軌跡：Manager 依次調度 Setup、Designer（提出 6 個候選方案）、Coder（實現流水線）和 Tuner（迭代調參），最終 Aggregator 以 RoBERTa-large 為基礎生成提交文件，取得 5.5060 的最優分數。下半部分對比了 AIBuildAI 與 AIRA-dojo、MLEvolve 在 10 個具體語言任務上的性能表現。AIBuildAI（紫色）在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多個任務上均取得最優成績，充分驗證了 AIBuildAI 在多樣化語言任務上的泛化能力。

總結

AIBuildAI 通過將 AI 開發流程分配到包括設計、編碼、調優與協調等任務的專職智能體，并以基于產出物的狀態管理將各個智能體緊密協同，實現了端到端自動化 AI 工程。不同于以往將代碼生成作為核心范式的單體系統，AIBuildAI 顯示建模了訓練動態監控、早停機制與超參數調整等關鍵環節，更貼近真實工程師團隊的工作方式。AIBuildAI 在 MLE-Bench 的 75 個任務上，以 63.1% 的獲獎率位居第一，證明了結構化多智能體協作在復雜工程工作自動化上的可行性，也為邁向媲美人類專業工程師的自動 AI 系統提供了清晰的技術路線。

作者簡介：

謝澎濤，UCSD 副教授，研究受人類學習啟發的機器學習及其在 LLM、基礎模型與生物醫學的應用。張睿一，UCSD 博士生，關注 LLM 效率、安全與測試時計算擴展。秦佩嘉，UCSD 博士生，聚焦獎勵模型與多智能體系統。曹啟，UCSD 博士生，主攻 LLM 推理。張力，UCSD 博士生，研究方向為機器視覺與視覺大模型。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.