網易首頁 > 網易號 > 正文申請入駐

龍蝦也能養龍蝦！UCSD發布AIBuildAI智能體，MLE-Bench榜單第一

2026-03-23 20:56:40　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】UCSD團隊推出AIBuildAI智能體，無需編程，僅用自然語言描述任務，即可自動設計、編碼、訓練、調參并優化AI模型，分工協作，端到端完成AI開發。在OpenAI MLE-Bench測試中，AIBuildAI以63.1%的獲獎率位居第一，性能媲美人類專家，推動AI開發邁向全自動化新時代。

近日，加州大學圣地亞哥分校的研究團隊開發了AIBuildAI智能體，可以全自動構建AI模型（包括模型設計，代碼實現，模型訓練，調參，性能評估，迭代優化）。團隊成員包括博士生Ruiyi Zhang，Peijia Qin，Qi Cao，Li Zhang，以及該校副教授Pengtao Xie。

開發一個高性能AI模型非常耗時費力，工程師需要反復設計模型、寫代碼實現模型、構建訓練流水線、執行超參數搜索，并根據實驗結果對模型進行迭代優化。

這一過程對專業知識的依賴程度極高，人力成本也居高不下，非常耗費時間。

為了解決這一問題，UCSD的研究團隊開發了AIBuildAI智能體，充當虛擬的AI工程師或AI科學家，全自動構建AI模型。用戶無需編程，只需要用自然語言對任務進行描述，AIBuildAI自動設計模型，寫代碼實現模型，訓練模型，調節超參數，評估模型性能，并根據實驗結果對模型進行迭代優化。

項目地址：https://github.com/aibuildai/AI-Build-AI

論文鏈接：https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf

OpenAI MLE-Bench測評結果：https://github.com/openai/mle-bench/pull/126

AIBuildAI在OpenAI MLE-Bench基準測試的75個任務上以63.1%的獲獎率位居榜首，其表現可媲美經驗豐富的AI工程師，實現了從任務描述到可部署模型的端到端自動化。

AIBuildAI的設計靈感來源于真實的AI研究團隊的工作流程。在典型的AI項目中，技術負責人統籌多條并行探索路線，研究員提出建模策略，工程師實現訓練流水線，負責人定期評審結果、分配資源。AIBuildAI將這一工作流抽象為一個多智能體搜索過程：將整個開發周期分解為多個專職智能體協作執行，并通過集中化的管理器進行統一調度。

技術核心

管理智能體（Manager Agent）

扮演項目運行負責人的角色，全程不直接寫代碼或執行訓練任務，而是通過讀取磁盤上的實驗記錄來做出下一步決策。他在兩種模式之間切換：協調模式下決定下一步應該調用哪一個子智能體；篩選模式下依據訓練信號保留有潛力的候選方案并終止無效方案來節約時間以及計算成本，并在進展停滯時觸發修訂或者終止。

研究員智能體（Designer Agent）

負責想方案和改方案兩項核心任務。在設計模式下，他直接探索數據集特征，提出多個差異化、可行性強的建模計劃；在修訂模式下，他仔細診斷失敗原因（過擬合、欠擬合、收斂問題或者數據異常），并提出具體的改進方案供編碼智能體重新實現。

編碼智能體（Coder Agent）

將設計方案轉化為可運行的訓練與推理流水線。編碼智能體的目標是確保代碼正確完整，而非追求最終性能。他會在寫完代碼后執行一次短時驗證運行以確保流水線可以端到端運行，隨后將完整訓練交由調優器處理。

調優器智能體（Tuner Agent）

接管訓練過程，在已有代碼基礎上專注于性能提升。它采用先快速校準、再決定是否投入的策略：先跑一段簡短的熱身訓練觀察學習曲線，再決定是延長當前方案還是進行超參數調整。整個過程在固定計算預算內完成。

系統設計

AIBuildAI在系統層面還具備三項關鍵特征：

并行效率：多條解決方案軌跡在獨立工作空間中并發運行，避免互相干擾，允許系統同時探索多個方法并將資源集中于表現好的候選方案。
可復現性：所有智能體通過存儲于磁盤中產出物（方案文檔、配置文件、日志、檢查點）進行協調，而非依賴內存中的臨時信息，確保每一步操作均可事后審查與復現。
安全性：智能體僅被允許寫入自身軌跡目錄，數據集以只讀方式掛載，每次調用均生成可審計的操作日志。

實驗結果

AIBuildAI在OpenAI MLE-Bench基準測試上進行了評估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench包含了來自Kaggle競賽的真實任務，涵蓋圖像分類，目標檢測/分割、自然語言理解與生成、時序信號建模以及結構化表格預測等多個類別，共75個任務，要求系統完成從原始數據到可提交模型的全流程開發。目前，AIBuildAI以63.1%的綜合獲獎率位居MLE-Bench總榜第一。上圖展示了AIBuildAI（橙條）的綜合性能在所有的對比方法中實現了性能最佳。

上圖展示了AIBuildAI 在語言理解與生成任務上的詳細結果。上半部分以Billion Word Imputation為例，完整呈現了 AIBuildAI 各智能體的運行軌跡：Manager依次調度Setup、Designer（提出6個候選方案）、Coder（實現流水線）和 Tuner（迭代調參），最終Aggregator以RoBERTa-large為基礎生成提交文件，取得5.5060的最優分數。下半部分對比了AIBuildAI與AIRA-dojo、MLEvolve在10個具體語言任務上的性能表現。

AIBuildAI（紫色）在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多個任務上均取得最優成績，充分驗證了 AIBuildAI 在多樣化語言任務上的泛化能力。

總結

AIBuildAI通過將AI開發流程分配到包括設計、編碼、調優與協調等任務的專職智能體，并以基于產出物的狀態管理將各個智能體緊密協同，實現了端到端自動化AI工程。

不同于以往將代碼生成作為核心范式的單體系統，AIBuildAI顯示建模了訓練動態監控、早停機制與超參數調整等關鍵環節，更貼近真實工程師團隊的工作方式。

AIBuildAI在MLE-Bench的75個任務上，以63.1%的獲獎率位居第一，證明了結構化多智能體協作在復雜工程工作自動化上的可行性，也為邁向媲美人類專業工程師的自動AI系統提供了清晰的技術路線。

參考資料：

https://github.com/aibuildai/AI-Build-AI

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.