337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

龍蝦也能養龍蝦!UCSD發布AIBuildAI智能體,MLE-Bench榜單第一

0
分享至


新智元報道

編輯:LRST

【新智元導讀】UCSD團隊推出AIBuildAI智能體,無需編程,僅用自然語言描述任務,即可自動設計、編碼、訓練、調參并優化AI模型,分工協作,端到端完成AI開發。在OpenAI MLE-Bench測試中,AIBuildAI以63.1%的獲獎率位居第一,性能媲美人類專家,推動AI開發邁向全自動化新時代。

近日,加州大學圣地亞哥分校的研究團隊開發了AIBuildAI智能體,可以全自動構建AI模型(包括模型設計,代碼實現,模型訓練,調參,性能評估,迭代優化)。團隊成員包括博士生Ruiyi Zhang,Peijia Qin,Qi Cao,Li Zhang,以及該校副教授Pengtao Xie。

開發一個高性能AI模型非常耗時費力,工程師需要反復設計模型、寫代碼實現模型、構建訓練流水線、執行超參數搜索,并根據實驗結果對模型進行迭代優化。

這一過程對專業知識的依賴程度極高,人力成本也居高不下,非常耗費時間。

為了解決這一問題,UCSD的研究團隊開發了AIBuildAI智能體,充當虛擬的AI工程師或AI科學家,全自動構建AI模型。用戶無需編程,只需要用自然語言對任務進行描述,AIBuildAI自動設計模型,寫代碼實現模型,訓練模型,調節超參數,評估模型性能,并根據實驗結果對模型進行迭代優化。


項目地址:https://github.com/aibuildai/AI-Build-AI

論文鏈接:https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf

OpenAI MLE-Bench測評結果:https://github.com/openai/mle-bench/pull/126

AIBuildAI在OpenAI MLE-Bench基準測試的75個任務上以63.1%的獲獎率位居榜首,其表現可媲美經驗豐富的AI工程師,實現了從任務描述到可部署模型的端到端自動化。



AIBuildAI的設計靈感來源于真實的AI研究團隊的工作流程。在典型的AI項目中,技術負責人統籌多條并行探索路線,研究員提出建模策略,工程師實現訓練流水線,負責人定期評審結果、分配資源。AIBuildAI將這一工作流抽象為一個多智能體搜索過程:將整個開發周期分解為多個專職智能體協作執行,并通過集中化的管理器進行統一調度。


技術核心

管理智能體(Manager Agent)

扮演項目運行負責人的角色,全程不直接寫代碼或執行訓練任務,而是通過讀取磁盤上的實驗記錄來做出下一步決策。他在兩種模式之間切換:協調模式下決定下一步應該調用哪一個子智能體;篩選模式下依據訓練信號保留有潛力的候選方案并終止無效方案來節約時間以及計算成本,并在進展停滯時觸發修訂或者終止。

研究員智能體(Designer Agent)

負責想方案和改方案兩項核心任務。在設計模式下,他直接探索數據集特征,提出多個差異化、可行性強的建模計劃;在修訂模式下,他仔細診斷失敗原因(過擬合、欠擬合、收斂問題或者數據異常),并提出具體的改進方案供編碼智能體重新實現。

編碼智能體(Coder Agent)

將設計方案轉化為可運行的訓練與推理流水線。編碼智能體的目標是確保代碼正確完整,而非追求最終性能。他會在寫完代碼后執行一次短時驗證運行以確保流水線可以端到端運行,隨后將完整訓練交由調優器處理。

調優器智能體(Tuner Agent)

接管訓練過程,在已有代碼基礎上專注于性能提升。它采用先快速校準、再決定是否投入的策略:先跑一段簡短的熱身訓練觀察學習曲線,再決定是延長當前方案還是進行超參數調整。整個過程在固定計算預算內完成。

系統設計

AIBuildAI在系統層面還具備三項關鍵特征:

  • 并行效率:多條解決方案軌跡在獨立工作空間中并發運行,避免互相干擾,允許系統同時探索多個方法并將資源集中于表現好的候選方案。

  • 可復現性:所有智能體通過存儲于磁盤中產出物(方案文檔、配置文件、日志、檢查點)進行協調,而非依賴內存中的臨時信息,確保每一步操作均可事后審查與復現。

  • 安全性:智能體僅被允許寫入自身軌跡目錄,數據集以只讀方式掛載,每次調用均生成可審計的操作日志。


實驗結果


AIBuildAI在OpenAI MLE-Bench基準測試上進行了評估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench包含了來自Kaggle競賽的真實任務,涵蓋圖像分類,目標檢測/分割、自然語言理解與生成、時序信號建模以及結構化表格預測等多個類別,共75個任務,要求系統完成從原始數據到可提交模型的全流程開發。目前,AIBuildAI以63.1%的綜合獲獎率位居MLE-Bench總榜第一。上圖展示了AIBuildAI(橙條)的綜合性能在所有的對比方法中實現了性能最佳。


上圖展示了AIBuildAI 在語言理解與生成任務上的詳細結果。上半部分以Billion Word Imputation為例,完整呈現了 AIBuildAI 各智能體的運行軌跡:Manager依次調度Setup、Designer(提出6個候選方案)、Coder(實現流水線)和 Tuner(迭代調參),最終Aggregator以RoBERTa-large為基礎生成提交文件,取得5.5060的最優分數。下半部分對比了AIBuildAI與AIRA-dojo、MLEvolve在10個具體語言任務上的性能表現。

AIBuildAI(紫色)在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多個任務上均取得最優成績,充分驗證了 AIBuildAI 在多樣化語言任務上的泛化能力。

總結

AIBuildAI通過將AI開發流程分配到包括設計、編碼、調優與協調等任務的專職智能體,并以基于產出物的狀態管理將各個智能體緊密協同,實現了端到端自動化AI工程。

不同于以往將代碼生成作為核心范式的單體系統,AIBuildAI顯示建模了訓練動態監控、早停機制與超參數調整等關鍵環節,更貼近真實工程師團隊的工作方式。

AIBuildAI在MLE-Bench的75個任務上,以63.1%的獲獎率位居第一,證明了結構化多智能體協作在復雜工程工作自動化上的可行性,也為邁向媲美人類專業工程師的自動AI系統提供了清晰的技術路線。

參考資料:

https://github.com/aibuildai/AI-Build-AI

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
今春“薄霧紫”裙爆火,高級浪漫,太美了

今春“薄霧紫”裙爆火,高級浪漫,太美了

十點讀書
2026-03-24 12:22:10
突發!Sora 宣布關停,史上最貴 AI 表情包生成器只撐了七個月

突發!Sora 宣布關停,史上最貴 AI 表情包生成器只撐了七個月

AppSo
2026-03-25 07:20:56
一家子全是美籍,卻還在國內“撈金”,年賺4億,賬上還存有130億

一家子全是美籍,卻還在國內“撈金”,年賺4億,賬上還存有130億

云景侃記
2026-02-26 23:05:22
起猛了!Arm推出首個自研CPU,黃仁勛貼大臉發言

起猛了!Arm推出首個自研CPU,黃仁勛貼大臉發言

智東西
2026-03-25 07:03:28
破防!小縣城殯儀館大屏流出,中年人扎堆離世,網友:還爭什么?

破防!小縣城殯儀館大屏流出,中年人扎堆離世,網友:還爭什么?

川渝視覺
2026-03-23 19:26:44
養肥了再宰?蒙古對西方巨頭下手了,這一刀也給中國提了個醒

養肥了再宰?蒙古對西方巨頭下手了,這一刀也給中國提了個醒

財經保探長
2026-03-19 19:39:45
美國前中情局局長:特朗普即使被“打臉”也不承認真相 我更信伊朗

美國前中情局局長:特朗普即使被“打臉”也不承認真相 我更信伊朗

新京報
2026-03-25 07:50:19
4月初,喜獲財神爺點名的3生肖,潛龍在淵,好消息接踵而至

4月初,喜獲財神爺點名的3生肖,潛龍在淵,好消息接踵而至

毅談生肖
2026-03-25 11:16:53
痛心!江西跑友劉濤去世,僅51歲,生前堅持晨跑,是3家公司老板

痛心!江西跑友劉濤去世,僅51歲,生前堅持晨跑,是3家公司老板

離離言幾許
2026-02-25 10:43:45
“鳥面媽媽”王小妞:不聽勸阻生二胎,兒子遺傳其外貌,現如何

“鳥面媽媽”王小妞:不聽勸阻生二胎,兒子遺傳其外貌,現如何

觀察者海風
2026-03-24 23:04:30
恩愛29年難抵"現實"?"喜新厭舊"的陳凱歌,為自己的行為買了單

恩愛29年難抵"現實"?"喜新厭舊"的陳凱歌,為自己的行為買了單

小熊侃史
2026-03-04 14:12:31
新冠后遺癥對人體的最大影響,很多人深受其害,有些人還不自知

新冠后遺癥對人體的最大影響,很多人深受其害,有些人還不自知

呼吸科大夫胡洋
2026-02-22 11:39:12
紫薇老公也是2cm

紫薇老公也是2cm

毒舌扒姨太
2026-03-24 22:44:57
一加 15T 起售價 4299 元,李杰:定價壓力巨大

一加 15T 起售價 4299 元,李杰:定價壓力巨大

數智前線
2026-03-25 06:10:32
部隊里面最怕新兵干什么?網友: 說想聽最后一遍軍中綠花的

部隊里面最怕新兵干什么?網友: 說想聽最后一遍軍中綠花的

夜深愛雜談
2026-03-23 22:54:18
殲-20最有希望的首個戰績,不是F-22不是F-35,今年9月才交給臺軍

殲-20最有希望的首個戰績,不是F-22不是F-35,今年9月才交給臺軍

李健政觀察
2026-03-25 11:14:50
張雪峰離世疑早有預兆,死因和細節曝光,留下11歲女兒和上億存款

張雪峰離世疑早有預兆,死因和細節曝光,留下11歲女兒和上億存款

皮蛋兒電影
2026-03-25 12:05:17
知名演員陳錦鴻把18歲自閉癥兒子培養成青年鋼琴家,能用普通話、粵語、英語、德語交流;陳錦鴻因主演《創世紀》《刑事偵緝檔案4》等劇走紅。退圈后著力發掘兒子...

知名演員陳錦鴻把18歲自閉癥兒子培養成青年鋼琴家,能用普通話、粵語、英語、德語交流;陳錦鴻因主演《創世紀》《刑事偵緝檔案4》等劇走紅。退圈后著力發掘兒子...

極目新聞
2026-03-23 18:22:39
古人說的"春藥"到底是什么?其實很多你身邊就有

古人說的"春藥"到底是什么?其實很多你身邊就有

西樓知趣雜談
2026-03-16 06:11:42
財神爺講述:只有這5個生肖能駕馭貔貅,戴上后明年財運翻倍

財神爺講述:只有這5個生肖能駕馭貔貅,戴上后明年財運翻倍

古怪奇談錄
2026-03-24 10:21:54
2026-03-25 13:04:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
14809文章數 66719關注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關停

頭條要聞

伊朗被指可"憑導彈再扛四個月" 美國想停戰以色列慌了

頭條要聞

伊朗被指可"憑導彈再扛四個月" 美國想停戰以色列慌了

體育要聞

NBA最強左手射手,是個右撇子

娛樂要聞

張雪峰經搶救無效不幸去世 年僅41歲

財經要聞

張雪峰:寒門講師的商業躍遷

汽車要聞

智己LS8放大招 30萬內8系旗艦+全線控底盤秀實力

態度原創

健康
家居
親子
藝術
公開課

轉頭就暈的耳石癥,能開車上班嗎?

家居要聞

輕奢堇天府 小資情調

親子要聞

深夜時談 樊登:別讓孩子沒苦硬吃,父母的愛是他未來解決苦難的動力

藝術要聞

《百花譜》,這個春天畫花不用愁!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版