337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

英偉達革了自己的命:智能體進化7天,干掉所有算子工程師、GPU專家

0
分享至



機器之心編輯部

這應該是今天剛剛出爐的、最炸裂的文章。

在很多算子開發(fā)的微信群組,已經(jīng)掀起了軒然大波。

「這或許是超人類智能在軟件領(lǐng)域的真正首次展露。」英偉達許冰剛剛在 X 上發(fā)出了如此斷言。他所評論的,正是他與 Terry Chen 和 Zhifan Ye 為共同一作的一項英偉達新研究AVO



在本周四剛剛提交到 arXiv 上的這項研究中,英偉達構(gòu)建了Agentic Variation Operator(AVO),這是一類新型進化變異算子,它用自主編碼智能體取代了經(jīng)典進化搜索中固定的變異、交叉和人工設(shè)計的啟發(fā)式方法,并取得了相當震撼的實際表現(xiàn)。

許冰表示:「在一些經(jīng)過高度優(yōu)化的注意力機制工作負載中,智能體在沒有人工干預的情況下,即可在優(yōu)化循環(huán)中連續(xù)搜索 7 天,從而超越幾乎所有人類 GPU 專家。」——AVO 的如此表現(xiàn)可能會讓許多內(nèi)核/DSL 瑟瑟發(fā)抖。



黃之鵬的 X 推文

有意思的是,在 X 推文中,許冰還分享說一年半之前他與 Terry Chen 剛開始在英偉達研究智能體編程時,他們還不懂 GPU 編程,「所以從一開始我們就致力于開發(fā)完全自動化、無需人工干預的系統(tǒng)。」他們稱之為「盲編程(blind coding)」。

「在過去一年半的時間里,我們兩人在兩個智能體系統(tǒng)中開發(fā)了四代智能體。從第二代開始,這些智能體棧就開始自我演化。現(xiàn)在每個智能體的代碼行數(shù)都約為 10 萬行(非空代碼)。」

他還重點強調(diào)了 AVO 背后的重大意義:「我敢打賭:盲編程是軟件工程的未來。人類認知能力是瓶頸。

下面我們就來詳細看看這篇或?qū)㈤_啟「盲編程」新時代的論文究竟做出了什么貢獻。



  • 論文標題:AVO: Agentic Variation Operators for Autonomous Evolutionary Search
  • 論文地址:https://arxiv.org/abs/2603.24517v1

大語言模型已成為進化搜索(Evolutionary Search)中的強大組件,它以學習代碼生成取代了手工設(shè)計的變異算子。在這些系統(tǒng)中,LLM 根據(jù)選定的父代生成候選解,而通常基于啟發(fā)式的框架則負責父代采樣、評估和種群管理。這種組合在數(shù)學優(yōu)化和算法發(fā)現(xiàn)領(lǐng)域取得了顯著成果,包括 FunSearch 和 AlphaEvolve 等旗艦系統(tǒng)。

然而,將 LLM 限制在預設(shè)流程中的候選解生成功能從根本上限制了其發(fā)現(xiàn)能力:每次調(diào)用僅產(chǎn)生一個輸出,無法主動查閱參考資料、測試其更改、解讀反饋或在提交候選方案前修正方案。對于那些已經(jīng)過極致人工調(diào)優(yōu)、需要深度迭代工程才能進一步改進的實現(xiàn),這種限制尤為突出。

研究者針對注意力機制背景下的這一問題進行了研究。注意力機制是 Transformer 架構(gòu)的核心算子,也是優(yōu)化最密集的 GPU 算子之一。FlashAttention 系列 和英偉達的 cuDNN 庫已將歷代 GPU 的注意力吞吐量推向硬件極限;在最新的 Blackwell 架構(gòu)上,F(xiàn)lashAttention-4 (FA4) 和 cuDNN 均需要數(shù)月的人工優(yōu)化。若要超越這些實現(xiàn),需要與開發(fā)環(huán)境進行持續(xù)、迭代的交互:研究硬件文檔、分析分析器(Profiler)輸出以識別瓶頸、實現(xiàn)并測試候選優(yōu)化方案、診斷正確性故障,并根據(jù)積累的經(jīng)驗修正策略。

深度智能體(Deep Agents)的最新進展表明,結(jié)合了規(guī)劃、持久內(nèi)存和工具使用能力的 LLM 可以自主處理此類多步工程工作流,應用范圍涵蓋從解決復雜的 GitHub 問題到生成關(guān)鍵深度學習軟件。這促使 LLM 在演化搜索中扮演一種截然不同的角色:與其將其限制在固定流水線內(nèi),不如將深度智能體提升為變異算子本身。

為此,英偉達提出了智能體式變異算子(Agentic Variation Operators, AVO)。在這種模式下,一個自導向的代碼代理取代了以往基于單輪 LLM 或固定工作流系統(tǒng)中的變異和交叉過程。AVO 智能體擁有訪問所有先前方案、特定領(lǐng)域知識庫和評估工具的權(quán)限。它能自主決定查閱內(nèi)容、修改對象以及評估時機,從而實現(xiàn)在長周期內(nèi)的持續(xù)改進。



為了驗證其有效性,英偉達將 AVO 應用于NVIDIA Blackwell B200 GPU上的多頭注意力(MHA)內(nèi)核,并直接與專家優(yōu)化的 cuDNN 和 FlashAttention-4 內(nèi)核進行對比。在無需人工干預、長達 7 天的連續(xù)自主演化中,智能體探索了超過 500 個優(yōu)化方向,演化出 40 個內(nèi)核版本。最終生成的 MHA 內(nèi)核在 BF16 精度下達到了最高1668 TFLOPS的吞吐量,在測試配置中分別超越 cuDNN 高達3.5%,超越 FlashAttention-4 高達10.5%

英偉達對智能體發(fā)現(xiàn)的優(yōu)化方案進行分析后發(fā)現(xiàn),這些優(yōu)化涵蓋了內(nèi)核設(shè)計的多個層面,包括寄存器分配、指令流水線調(diào)度和負載分布,反映了真正的硬件級推理。實驗表明,在 MHA 上發(fā)現(xiàn)的優(yōu)化技術(shù)能有效遷移至分組查詢注意力(GQA):智能體僅需 30 分鐘的額外自主適配,即可完成演化版 MHA 內(nèi)核對 GQA 的支持,其性能相比 cuDNN 提升高達 7.0%,相比 FlashAttention-4 提升 9.3%。

該研究的主要貢獻如下:

  • 提出代理式變異算子(AVO):這是一類新型的演化變異算子,將智能體從單純的候選生成器提升為變異算子。智能體通過與環(huán)境的迭代交互,自主探索領(lǐng)域知識、實施修改并驗證結(jié)果。
  • 實現(xiàn) SOTA 性能:在 NVIDIA B200 GPU 上,研究者在基準測試配置中實現(xiàn)了最頂尖的 MHA 吞吐量,達到 1668 TFLOPS,性能超越 cuDNN 高達 3.5%,超越 FlashAttention-4 高達 10.5%。此外,他們證明了這些優(yōu)化可以輕松遷移至 GQA,僅需 30 分鐘的自主演化即可獲得顯著性能增益。
  • 微架構(gòu)優(yōu)化分析:研究者對智能體在基準測試設(shè)置下發(fā)現(xiàn)的微架構(gòu)優(yōu)化進行了詳細分析,表明代理進行的是真正的硬件級推理,而非表層的代碼變換。

告別流水線

AI 智能體成為真正的「進化操盤手」

在傳統(tǒng)的基于 LLM 的進化搜索框架中,模型往往被困在固定的流水線里,僅僅充當候選代碼的生成器。它們每次調(diào)用只能輸出一次結(jié)果,無法主動查閱參考資料、測試代碼、理解反饋或在最終提交前修正策略。對于需要深度、反復迭代的頂級硬件優(yōu)化任務來說,這種限制尤為致命。

AVO 打破了這一局限,將「變異算子」實例化為一個自我驅(qū)動的智能體循環(huán)。這個 AI 智能體可以自由查閱之前的代碼版本記錄、調(diào)用領(lǐng)域?qū)俚闹R庫(如 CUDA 編程指南和 PTX 架構(gòu)文檔),并根據(jù)執(zhí)行反饋來主動提出、修復、批判和驗證代碼修改。



簡而言之,AVO 將 AI 從被動的「代碼生成器」提升為了掌握全局的「進化操盤手」。

7 天自主運轉(zhuǎn)

在 Blackwell 架構(gòu)上擊敗頂尖基準

研究團隊將 AVO 部署在一項極具挑戰(zhàn)性的任務上:在 NVIDIA Blackwell (B200) GPU 上優(yōu)化多頭注意力(Multi-head Attention,簡稱 MHA)核心代碼。注意力機制是目前 Transformer 架構(gòu)的核心,也是 AI 芯片上被優(yōu)化得最極致的計算目標之一。

在完全沒有人類干預的情況下,AVO 智能體連續(xù)自主運行了 7 天

在這 7 天里,智能體在后臺探索了超過 500 個優(yōu)化方向,并最終提交了 40 個有效迭代版本。最終,它生成的 MHA 核心在 BF16 精度下實現(xiàn)了高達 1668 TFLOPS 的吞吐量。



在基準測試中,AVO 交出的答卷令人驚嘆:

  • 相比英偉達官方為 Blackwell 定制的閉源 cuDNN 庫,吞吐量提升了最高3.5%
  • 相比目前最前沿的開源基準 FlashAttention-4,吞吐量提升了最高10.5%

強大的泛化能力

30 分鐘遷移至分組查詢注意力

更令人印象深刻的是,這些由智能體發(fā)現(xiàn)的底層微架構(gòu)優(yōu)化,并非只針對特定場景的過度擬合。當研究人員要求 AVO 將優(yōu)化好的 MHA 核心適配到如今大模型常用的分組查詢注意力(Grouped-query Attention,簡稱 GQA)時,智能體僅用了約 30 分鐘的自主調(diào)整就完成了任務。



在 GQA 的測試中,AVO 依然保持了絕對的領(lǐng)先優(yōu)勢,性能比 cuDNN 高出最高 7.0%,比 FlashAttention-4 高出最高 9.3%。這表明,智能體在 MHA 進化過程中發(fā)現(xiàn)的計算和內(nèi)存訪問優(yōu)化模式,能夠有效泛化到具有不同計算特征的 GQA 任務中。

深入底層的微架構(gòu)推理

分析 AVO 提交的代碼變更可以看出,AI 智能體并非在做表面功夫,而是進行了真正深入硬件底層的邏輯推理 :

  • 無分支累加器重縮放:通過消除條件分支,智能體排除了 warp 同步的開銷,并替換了更輕量級的內(nèi)存屏障,使得非因果注意力的吞吐量一次性提升了 8.1%。
  • 糾錯與張量核心(MMA)流水線重疊:智能體重新組織了執(zhí)行流水線,將原本順序執(zhí)行的依賴關(guān)系轉(zhuǎn)化為交疊的流水線執(zhí)行,大幅減少了硬件的空閑等待時間。
  • 跨 warp 組的寄存器重新平衡:智能體通過分析性能分析器的數(shù)據(jù),發(fā)現(xiàn)某些運算組因為寄存器不足而導致數(shù)據(jù)溢出至慢速本地內(nèi)存。它果斷對 Blackwell 的 2048 個寄存器預算進行了重新分配,進一步壓榨出 2.1% 的性能提升。

英偉達的這項研究證明,AI 智能體已經(jīng)具備了處理多硬件子系統(tǒng)(如同步、內(nèi)存排序、流水線調(diào)度和寄存器分配)聯(lián)合推理的能力。AVO 作為一種不局限于特定領(lǐng)域的進化變異算子,為未來的自動化軟件系統(tǒng)優(yōu)化指出了一條明路。它不僅能用于 AI 芯片和深度學習底層生態(tài)的開發(fā),未來更有望在所有對算力有著極致苛求的科學和工程領(lǐng)域中大展拳腳。

AI 智能體的自我進化能夠達到這種水平,你怕了嗎?

https://x.com/bingxu_/status/2036983004200149460?s=46

https://x.com/nopainkiller/status/2036986666410532972

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
國務院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負責人 督辦“3?15”晚會曝光問題整改

國務院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負責人 督辦“3?15”晚會曝光問題整改

新京報
2026-03-28 19:17:17
美軍集結(jié)地遭襲擊傷亡慘重!美媒:美國軍力遭受二戰(zhàn)后最嚴重削弱

美軍集結(jié)地遭襲擊傷亡慘重!美媒:美國軍力遭受二戰(zhàn)后最嚴重削弱

影孖看世界
2026-03-28 22:40:15
俄警告韓國勿向烏提供致命性武器

俄警告韓國勿向烏提供致命性武器

財聯(lián)社
2026-03-29 09:30:26
殲20總設(shè)計師被除名:頂頭上司受賄7億判死緩,事發(fā)全過程被還原

殲20總設(shè)計師被除名:頂頭上司受賄7億判死緩,事發(fā)全過程被還原

博士觀察
2026-03-28 21:02:35
張雪峰追悼會破防一幕:朋友三鞠躬,員工卻磕頭,看完瞬間淚目

張雪峰追悼會破防一幕:朋友三鞠躬,員工卻磕頭,看完瞬間淚目

行者聊官
2026-03-28 12:37:18
難怪紅霉素軟膏越來越好,這7大用途超厲害,早知道早受益!

難怪紅霉素軟膏越來越好,這7大用途超厲害,早知道早受益!

妙招酷
2026-03-26 22:33:25
SpaceX星艦第10次試飛:飛船炸了,但發(fā)射塔接住了

SpaceX星艦第10次試飛:飛船炸了,但發(fā)射塔接住了

爬蟲飼養(yǎng)員
2026-03-29 07:16:35
伊朗伊斯蘭革命衛(wèi)隊稱美以大學將成“合法襲擊目標”

伊朗伊斯蘭革命衛(wèi)隊稱美以大學將成“合法襲擊目標”

新京報
2026-03-29 07:26:06
韓國歌手暴雨中濕透仍全開麥,這照片直接封神了!

韓國歌手暴雨中濕透仍全開麥,這照片直接封神了!

東方不敗然多多
2026-03-29 01:08:36
“白天800晚上900元”,女子陪爬泰山時,被一男子“白嫖”800元

“白天800晚上900元”,女子陪爬泰山時,被一男子“白嫖”800元

江山揮筆
2026-03-28 16:50:15
“黃毛的爹,酗酒的媽”,上海三口之家火了,只有孩子看著不叛逆

“黃毛的爹,酗酒的媽”,上海三口之家火了,只有孩子看著不叛逆

妍妍教育日記
2026-03-29 07:40:03
太離譜了!鄰居長期空置,老人把鞋柜擺到對方門口,結(jié)果被投訴…

太離譜了!鄰居長期空置,老人把鞋柜擺到對方門口,結(jié)果被投訴…

火山詩話
2026-03-29 09:36:32
155億賠償落地!澳洲認賠止損,巴拿馬震動,全球投資規(guī)則再警示

155億賠償落地!澳洲認賠止損,巴拿馬震動,全球投資規(guī)則再警示

世界圈
2026-03-29 02:40:03
鈔能力失靈!日本夜店“名花”在中國被捕,與男友雙雙涉毒

鈔能力失靈!日本夜店“名花”在中國被捕,與男友雙雙涉毒

這里是東京
2026-03-28 16:49:24
孕婦做陰超下體被男醫(yī)生看光,丈夫大鬧醫(yī)院尋死,現(xiàn)場畫面太鬧心

孕婦做陰超下體被男醫(yī)生看光,丈夫大鬧醫(yī)院尋死,現(xiàn)場畫面太鬧心

潮鹿逐夢
2026-03-28 10:59:56
北京地區(qū)的人不能買無人機

北京地區(qū)的人不能買無人機

新浪財經(jīng)
2026-03-29 03:33:10
遺傳病能有多恐怖?網(wǎng)友:癌癥遺傳那個堪稱地獄級了

遺傳病能有多恐怖?網(wǎng)友:癌癥遺傳那個堪稱地獄級了

帶你感受人間冷暖
2026-03-28 16:23:17
5500臺全球第一,4000臺吃灰:宇樹機器人,終究是實驗室的狂歡?

5500臺全球第一,4000臺吃灰:宇樹機器人,終究是實驗室的狂歡?

墨印齋
2026-03-27 18:34:46
沖上熱搜!今年蚊子可能迎來史詩級加強?網(wǎng)友:遭不住了

沖上熱搜!今年蚊子可能迎來史詩級加強?網(wǎng)友:遭不住了

深圳晚報
2026-03-28 22:25:02
張雪峰葬禮炸出“牛鬼蛇神”,“大人物”來了,女兒的話字字催淚

張雪峰葬禮炸出“牛鬼蛇神”,“大人物”來了,女兒的話字字催淚

悅君兮君不知
2026-03-28 19:19:57
2026-03-29 12:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142598關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

體育要聞

全球第二大車企,也救不了這支德甲隊?

娛樂要聞

張凌赫事件持續(xù)升級!官方點名怒批

財經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態(tài)度原創(chuàng)

教育
家居
房產(chǎn)
時尚
軍事航空

教育要聞

深圳老師借盤古開天地講創(chuàng)新,唯有開拓創(chuàng)新才能獲得新生!

家居要聞

曲線華爾茲 現(xiàn)代簡約

房產(chǎn)要聞

首日430組來訪,單日120組認籌!海口首個真四代,徹底爆了!

和田曦薇一樣嫩嘟嘟,這3個變美技巧你一定不能錯過!

軍事要聞

美軍中東基地損失最新披露

無障礙瀏覽 進入關(guān)懷版