337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)革了自己的命:智能體進(jìn)化7天,干掉所有算子工程師、GPU專家

0
分享至



機(jī)器之心編輯部

這應(yīng)該是今天剛剛出爐的、最炸裂的文章。

在很多算子開(kāi)發(fā)的微信群組,已經(jīng)掀起了軒然大波。

「這或許是超人類智能在軟件領(lǐng)域的真正首次展露。」英偉達(dá)許冰剛剛在 X 上發(fā)出了如此斷言。他所評(píng)論的,正是他與 Terry Chen 和 Zhifan Ye 為共同一作的一項(xiàng)英偉達(dá)新研究AVO



在本周四剛剛提交到 arXiv 上的這項(xiàng)研究中,英偉達(dá)構(gòu)建了Agentic Variation Operator(AVO),這是一類新型進(jìn)化變異算子,它用自主編碼智能體取代了經(jīng)典進(jìn)化搜索中固定的變異、交叉和人工設(shè)計(jì)的啟發(fā)式方法,并取得了相當(dāng)震撼的實(shí)際表現(xiàn)。

許冰表示:「在一些經(jīng)過(guò)高度優(yōu)化的注意力機(jī)制工作負(fù)載中,智能體在沒(méi)有人工干預(yù)的情況下,即可在優(yōu)化循環(huán)中連續(xù)搜索 7 天,從而超越幾乎所有人類 GPU 專家。」——AVO 的如此表現(xiàn)可能會(huì)讓許多內(nèi)核/DSL 瑟瑟發(fā)抖。



黃之鵬的 X 推文

有意思的是,在 X 推文中,許冰還分享說(shuō)一年半之前他與 Terry Chen 剛開(kāi)始在英偉達(dá)研究智能體編程時(shí),他們還不懂 GPU 編程,「所以從一開(kāi)始我們就致力于開(kāi)發(fā)完全自動(dòng)化、無(wú)需人工干預(yù)的系統(tǒng)。」他們稱之為「盲編程(blind coding)」。

「在過(guò)去一年半的時(shí)間里,我們兩人在兩個(gè)智能體系統(tǒng)中開(kāi)發(fā)了四代智能體。從第二代開(kāi)始,這些智能體棧就開(kāi)始自我演化。現(xiàn)在每個(gè)智能體的代碼行數(shù)都約為 10 萬(wàn)行(非空代碼)。」

他還重點(diǎn)強(qiáng)調(diào)了 AVO 背后的重大意義:「我敢打賭:盲編程是軟件工程的未來(lái)。人類認(rèn)知能力是瓶頸。

下面我們就來(lái)詳細(xì)看看這篇或?qū)㈤_(kāi)啟「盲編程」新時(shí)代的論文究竟做出了什么貢獻(xiàn)。



  • 論文標(biāo)題:AVO: Agentic Variation Operators for Autonomous Evolutionary Search
  • 論文地址:https://arxiv.org/abs/2603.24517v1

大語(yǔ)言模型已成為進(jìn)化搜索(Evolutionary Search)中的強(qiáng)大組件,它以學(xué)習(xí)代碼生成取代了手工設(shè)計(jì)的變異算子。在這些系統(tǒng)中,LLM 根據(jù)選定的父代生成候選解,而通常基于啟發(fā)式的框架則負(fù)責(zé)父代采樣、評(píng)估和種群管理。這種組合在數(shù)學(xué)優(yōu)化和算法發(fā)現(xiàn)領(lǐng)域取得了顯著成果,包括 FunSearch 和 AlphaEvolve 等旗艦系統(tǒng)。

然而,將 LLM 限制在預(yù)設(shè)流程中的候選解生成功能從根本上限制了其發(fā)現(xiàn)能力:每次調(diào)用僅產(chǎn)生一個(gè)輸出,無(wú)法主動(dòng)查閱參考資料、測(cè)試其更改、解讀反饋或在提交候選方案前修正方案。對(duì)于那些已經(jīng)過(guò)極致人工調(diào)優(yōu)、需要深度迭代工程才能進(jìn)一步改進(jìn)的實(shí)現(xiàn),這種限制尤為突出。

研究者針對(duì)注意力機(jī)制背景下的這一問(wèn)題進(jìn)行了研究。注意力機(jī)制是 Transformer 架構(gòu)的核心算子,也是優(yōu)化最密集的 GPU 算子之一。FlashAttention 系列 和英偉達(dá)的 cuDNN 庫(kù)已將歷代 GPU 的注意力吞吐量推向硬件極限;在最新的 Blackwell 架構(gòu)上,F(xiàn)lashAttention-4 (FA4) 和 cuDNN 均需要數(shù)月的人工優(yōu)化。若要超越這些實(shí)現(xiàn),需要與開(kāi)發(fā)環(huán)境進(jìn)行持續(xù)、迭代的交互:研究硬件文檔、分析分析器(Profiler)輸出以識(shí)別瓶頸、實(shí)現(xiàn)并測(cè)試候選優(yōu)化方案、診斷正確性故障,并根據(jù)積累的經(jīng)驗(yàn)修正策略。

深度智能體(Deep Agents)的最新進(jìn)展表明,結(jié)合了規(guī)劃、持久內(nèi)存和工具使用能力的 LLM 可以自主處理此類多步工程工作流,應(yīng)用范圍涵蓋從解決復(fù)雜的 GitHub 問(wèn)題到生成關(guān)鍵深度學(xué)習(xí)軟件。這促使 LLM 在演化搜索中扮演一種截然不同的角色:與其將其限制在固定流水線內(nèi),不如將深度智能體提升為變異算子本身。

為此,英偉達(dá)提出了智能體式變異算子(Agentic Variation Operators, AVO)。在這種模式下,一個(gè)自導(dǎo)向的代碼代理取代了以往基于單輪 LLM 或固定工作流系統(tǒng)中的變異和交叉過(guò)程。AVO 智能體擁有訪問(wèn)所有先前方案、特定領(lǐng)域知識(shí)庫(kù)和評(píng)估工具的權(quán)限。它能自主決定查閱內(nèi)容、修改對(duì)象以及評(píng)估時(shí)機(jī),從而實(shí)現(xiàn)在長(zhǎng)周期內(nèi)的持續(xù)改進(jìn)。



為了驗(yàn)證其有效性,英偉達(dá)將 AVO 應(yīng)用于NVIDIA Blackwell B200 GPU上的多頭注意力(MHA)內(nèi)核,并直接與專家優(yōu)化的 cuDNN 和 FlashAttention-4 內(nèi)核進(jìn)行對(duì)比。在無(wú)需人工干預(yù)、長(zhǎng)達(dá) 7 天的連續(xù)自主演化中,智能體探索了超過(guò) 500 個(gè)優(yōu)化方向,演化出 40 個(gè)內(nèi)核版本。最終生成的 MHA 內(nèi)核在 BF16 精度下達(dá)到了最高1668 TFLOPS的吞吐量,在測(cè)試配置中分別超越 cuDNN 高達(dá)3.5%,超越 FlashAttention-4 高達(dá)10.5%

英偉達(dá)對(duì)智能體發(fā)現(xiàn)的優(yōu)化方案進(jìn)行分析后發(fā)現(xiàn),這些優(yōu)化涵蓋了內(nèi)核設(shè)計(jì)的多個(gè)層面,包括寄存器分配、指令流水線調(diào)度和負(fù)載分布,反映了真正的硬件級(jí)推理。實(shí)驗(yàn)表明,在 MHA 上發(fā)現(xiàn)的優(yōu)化技術(shù)能有效遷移至分組查詢注意力(GQA):智能體僅需 30 分鐘的額外自主適配,即可完成演化版 MHA 內(nèi)核對(duì) GQA 的支持,其性能相比 cuDNN 提升高達(dá) 7.0%,相比 FlashAttention-4 提升 9.3%。

該研究的主要貢獻(xiàn)如下:

  • 提出代理式變異算子(AVO):這是一類新型的演化變異算子,將智能體從單純的候選生成器提升為變異算子。智能體通過(guò)與環(huán)境的迭代交互,自主探索領(lǐng)域知識(shí)、實(shí)施修改并驗(yàn)證結(jié)果。
  • 實(shí)現(xiàn) SOTA 性能:在 NVIDIA B200 GPU 上,研究者在基準(zhǔn)測(cè)試配置中實(shí)現(xiàn)了最頂尖的 MHA 吞吐量,達(dá)到 1668 TFLOPS,性能超越 cuDNN 高達(dá) 3.5%,超越 FlashAttention-4 高達(dá) 10.5%。此外,他們證明了這些優(yōu)化可以輕松遷移至 GQA,僅需 30 分鐘的自主演化即可獲得顯著性能增益。
  • 微架構(gòu)優(yōu)化分析:研究者對(duì)智能體在基準(zhǔn)測(cè)試設(shè)置下發(fā)現(xiàn)的微架構(gòu)優(yōu)化進(jìn)行了詳細(xì)分析,表明代理進(jìn)行的是真正的硬件級(jí)推理,而非表層的代碼變換。

告別流水線

AI 智能體成為真正的「進(jìn)化操盤手」

在傳統(tǒng)的基于 LLM 的進(jìn)化搜索框架中,模型往往被困在固定的流水線里,僅僅充當(dāng)候選代碼的生成器。它們每次調(diào)用只能輸出一次結(jié)果,無(wú)法主動(dòng)查閱參考資料、測(cè)試代碼、理解反饋或在最終提交前修正策略。對(duì)于需要深度、反復(fù)迭代的頂級(jí)硬件優(yōu)化任務(wù)來(lái)說(shuō),這種限制尤為致命。

AVO 打破了這一局限,將「變異算子」實(shí)例化為一個(gè)自我驅(qū)動(dòng)的智能體循環(huán)。這個(gè) AI 智能體可以自由查閱之前的代碼版本記錄、調(diào)用領(lǐng)域?qū)俚闹R(shí)庫(kù)(如 CUDA 編程指南和 PTX 架構(gòu)文檔),并根據(jù)執(zhí)行反饋來(lái)主動(dòng)提出、修復(fù)、批判和驗(yàn)證代碼修改。



簡(jiǎn)而言之,AVO 將 AI 從被動(dòng)的「代碼生成器」提升為了掌握全局的「進(jìn)化操盤手」。

7 天自主運(yùn)轉(zhuǎn)

在 Blackwell 架構(gòu)上擊敗頂尖基準(zhǔn)

研究團(tuán)隊(duì)將 AVO 部署在一項(xiàng)極具挑戰(zhàn)性的任務(wù)上:在 NVIDIA Blackwell (B200) GPU 上優(yōu)化多頭注意力(Multi-head Attention,簡(jiǎn)稱 MHA)核心代碼。注意力機(jī)制是目前 Transformer 架構(gòu)的核心,也是 AI 芯片上被優(yōu)化得最極致的計(jì)算目標(biāo)之一。

在完全沒(méi)有人類干預(yù)的情況下,AVO 智能體連續(xù)自主運(yùn)行了 7 天

在這 7 天里,智能體在后臺(tái)探索了超過(guò) 500 個(gè)優(yōu)化方向,并最終提交了 40 個(gè)有效迭代版本。最終,它生成的 MHA 核心在 BF16 精度下實(shí)現(xiàn)了高達(dá) 1668 TFLOPS 的吞吐量。



在基準(zhǔn)測(cè)試中,AVO 交出的答卷令人驚嘆:

  • 相比英偉達(dá)官方為 Blackwell 定制的閉源 cuDNN 庫(kù),吞吐量提升了最高3.5%
  • 相比目前最前沿的開(kāi)源基準(zhǔn) FlashAttention-4,吞吐量提升了最高10.5%

強(qiáng)大的泛化能力

30 分鐘遷移至分組查詢注意力

更令人印象深刻的是,這些由智能體發(fā)現(xiàn)的底層微架構(gòu)優(yōu)化,并非只針對(duì)特定場(chǎng)景的過(guò)度擬合。當(dāng)研究人員要求 AVO 將優(yōu)化好的 MHA 核心適配到如今大模型常用的分組查詢注意力(Grouped-query Attention,簡(jiǎn)稱 GQA)時(shí),智能體僅用了約 30 分鐘的自主調(diào)整就完成了任務(wù)。



在 GQA 的測(cè)試中,AVO 依然保持了絕對(duì)的領(lǐng)先優(yōu)勢(shì),性能比 cuDNN 高出最高 7.0%,比 FlashAttention-4 高出最高 9.3%。這表明,智能體在 MHA 進(jìn)化過(guò)程中發(fā)現(xiàn)的計(jì)算和內(nèi)存訪問(wèn)優(yōu)化模式,能夠有效泛化到具有不同計(jì)算特征的 GQA 任務(wù)中。

深入底層的微架構(gòu)推理

分析 AVO 提交的代碼變更可以看出,AI 智能體并非在做表面功夫,而是進(jìn)行了真正深入硬件底層的邏輯推理 :

  • 無(wú)分支累加器重縮放:通過(guò)消除條件分支,智能體排除了 warp 同步的開(kāi)銷,并替換了更輕量級(jí)的內(nèi)存屏障,使得非因果注意力的吞吐量一次性提升了 8.1%。
  • 糾錯(cuò)與張量核心(MMA)流水線重疊:智能體重新組織了執(zhí)行流水線,將原本順序執(zhí)行的依賴關(guān)系轉(zhuǎn)化為交疊的流水線執(zhí)行,大幅減少了硬件的空閑等待時(shí)間。
  • 跨 warp 組的寄存器重新平衡:智能體通過(guò)分析性能分析器的數(shù)據(jù),發(fā)現(xiàn)某些運(yùn)算組因?yàn)榧拇嫫鞑蛔愣鴮?dǎo)致數(shù)據(jù)溢出至慢速本地內(nèi)存。它果斷對(duì) Blackwell 的 2048 個(gè)寄存器預(yù)算進(jìn)行了重新分配,進(jìn)一步壓榨出 2.1% 的性能提升。

英偉達(dá)的這項(xiàng)研究證明,AI 智能體已經(jīng)具備了處理多硬件子系統(tǒng)(如同步、內(nèi)存排序、流水線調(diào)度和寄存器分配)聯(lián)合推理的能力。AVO 作為一種不局限于特定領(lǐng)域的進(jìn)化變異算子,為未來(lái)的自動(dòng)化軟件系統(tǒng)優(yōu)化指出了一條明路。它不僅能用于 AI 芯片和深度學(xué)習(xí)底層生態(tài)的開(kāi)發(fā),未來(lái)更有望在所有對(duì)算力有著極致苛求的科學(xué)和工程領(lǐng)域中大展拳腳。

AI 智能體的自我進(jìn)化能夠達(dá)到這種水平,你怕了嗎?

https://x.com/bingxu_/status/2036983004200149460?s=46

https://x.com/nopainkiller/status/2036986666410532972

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
可能出大事了,四名軍工系統(tǒng)院士被除名,釋放的信號(hào)讓人不敢細(xì)想

可能出大事了,四名軍工系統(tǒng)院士被除名,釋放的信號(hào)讓人不敢細(xì)想

張嘴說(shuō)財(cái)經(jīng)
2026-03-25 23:07:05
原來(lái)她是張雪峰前妻,90后歷史學(xué)博士?,兩人離婚后曾一起上節(jié)目

原來(lái)她是張雪峰前妻,90后歷史學(xué)博士?,兩人離婚后曾一起上節(jié)目

大鐵貓娛樂(lè)
2026-03-25 13:03:57
釋永信“開(kāi)光”真相大白,過(guò)程不堪入目,易中天也有牽扯

釋永信“開(kāi)光”真相大白,過(guò)程不堪入目,易中天也有牽扯

尋墨閣
2026-03-25 11:39:10
新加坡站隊(duì)了?正式向世界宣布:中方若繼續(xù)挑釁日本,會(huì)讓他好看

新加坡站隊(duì)了?正式向世界宣布:中方若繼續(xù)挑釁日本,會(huì)讓他好看

小影的娛樂(lè)
2026-03-26 13:45:58
中東局勢(shì)加劇美國(guó)的信任危機(jī),歐洲很受傷意見(jiàn)很大

中東局勢(shì)加劇美國(guó)的信任危機(jī),歐洲很受傷意見(jiàn)很大

上觀新聞
2026-03-26 14:26:45
惡毒詆毀張雪峰離世:千萬(wàn)粉絲“留幾手”被罰!網(wǎng)友:應(yīng)永久封殺

惡毒詆毀張雪峰離世:千萬(wàn)粉絲“留幾手”被罰!網(wǎng)友:應(yīng)永久封殺

影像溫度
2026-03-26 11:25:05
張雪峰猝然離世,辦公室內(nèi)景曝光,擺設(shè)奇怪,寫真照被指像遺照,生前的話字字催淚

張雪峰猝然離世,辦公室內(nèi)景曝光,擺設(shè)奇怪,寫真照被指像遺照,生前的話字字催淚

筆墨V
2026-03-26 14:53:51
高速統(tǒng)一限速3月26日正式落地!五檔限速+清理非標(biāo)不會(huì)再亂扣分!

高速統(tǒng)一限速3月26日正式落地!五檔限速+清理非標(biāo)不會(huì)再亂扣分!

沙雕小琳琳
2026-03-26 09:41:30
外交部發(fā)言人反問(wèn)日媒:“你見(jiàn)過(guò)有人未經(jīng)允許持刀進(jìn)入使館與大使交談的先例嗎?”

外交部發(fā)言人反問(wèn)日媒:“你見(jiàn)過(guò)有人未經(jīng)允許持刀進(jìn)入使館與大使交談的先例嗎?”

環(huán)球網(wǎng)資訊
2026-03-25 15:39:26
廣東一男子買啤酒抽中電動(dòng)車大獎(jiǎng),將中獎(jiǎng)二維碼發(fā)網(wǎng)上詢問(wèn)后被他人掃走核銷,網(wǎng)友:“這下又上了一課”

廣東一男子買啤酒抽中電動(dòng)車大獎(jiǎng),將中獎(jiǎng)二維碼發(fā)網(wǎng)上詢問(wèn)后被他人掃走核銷,網(wǎng)友:“這下又上了一課”

洪觀新聞
2026-03-26 10:56:49
中國(guó)、俄羅斯、伊朗等123票贊成,美國(guó)、以色列等3票反對(duì),聯(lián)合國(guó)認(rèn)定:最嚴(yán)重反人類罪!英法德日等52國(guó)投棄權(quán)票

中國(guó)、俄羅斯、伊朗等123票贊成,美國(guó)、以色列等3票反對(duì),聯(lián)合國(guó)認(rèn)定:最嚴(yán)重反人類罪!英法德日等52國(guó)投棄權(quán)票

每日經(jīng)濟(jì)新聞
2026-03-26 13:25:09
伊朗對(duì)以色列發(fā)起導(dǎo)彈打擊 以多地響起防空警報(bào)

伊朗對(duì)以色列發(fā)起導(dǎo)彈打擊 以多地響起防空警報(bào)

財(cái)聯(lián)社
2026-03-26 14:50:24
張雪峰猝死后,盧克文也不敢跑步了,曾每年跑1千公里,身體垮了

張雪峰猝死后,盧克文也不敢跑步了,曾每年跑1千公里,身體垮了

水晶的視界
2026-03-26 09:28:29
中日戰(zhàn)爭(zhēng)還沒(méi)打響,中國(guó)可能就先“輸”了。

中日戰(zhàn)爭(zhēng)還沒(méi)打響,中國(guó)可能就先“輸”了。

別人都叫我阿腈
2026-03-26 08:03:09
是什么,讓這個(gè)日本自衛(wèi)官竟敢對(duì)中國(guó)大使館舉刀?

是什么,讓這個(gè)日本自衛(wèi)官竟敢對(duì)中國(guó)大使館舉刀?

環(huán)球時(shí)報(bào)國(guó)際
2026-03-26 00:13:51
伊朗議長(zhǎng)和外長(zhǎng)被移出美以清除名單,“時(shí)限4到5天”!專家:若達(dá)成協(xié)議最慌的是以色列!特朗普:油價(jià)漲、股市跌,我無(wú)所謂

伊朗議長(zhǎng)和外長(zhǎng)被移出美以清除名單,“時(shí)限4到5天”!專家:若達(dá)成協(xié)議最慌的是以色列!特朗普:油價(jià)漲、股市跌,我無(wú)所謂

每日經(jīng)濟(jì)新聞
2026-03-26 12:20:14
痛別!李幼平逝世

痛別!李幼平逝世

極目新聞
2026-03-26 13:31:27
黎真主黨導(dǎo)彈襲擊以國(guó)防部及軍營(yíng)

黎真主黨導(dǎo)彈襲擊以國(guó)防部及軍營(yíng)

北青網(wǎng)-北京青年報(bào)
2026-03-26 10:19:17
2026戶籍新規(guī)全面落地:人在何處生活,戶口即可登記于此

2026戶籍新規(guī)全面落地:人在何處生活,戶口即可登記于此

復(fù)轉(zhuǎn)這些年
2026-03-26 09:43:09
京牌不再稀缺,北京車市進(jìn)入理性新階段

京牌不再稀缺,北京車市進(jìn)入理性新階段

音樂(lè)時(shí)光的娛樂(lè)
2026-03-26 14:59:43
2026-03-26 16:28:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12606文章數(shù) 142593關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

上海媽媽尋親27年懸賞市區(qū)一套房:不用盡孝 要個(gè)擁抱

頭條要聞

上海媽媽尋親27年懸賞市區(qū)一套房:不用盡孝 要個(gè)擁抱

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂(lè)要聞

張雪峰家人首發(fā)聲 不設(shè)追思會(huì)喪事從簡(jiǎn)

財(cái)經(jīng)要聞

黃仁勛:芯片公司的時(shí)代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

本地
親子
房產(chǎn)
健康
公開(kāi)課

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬(wàn)遍

親子要聞

售賣“增高神藥”讓孩子“猛長(zhǎng)20厘米”?多家店鋪被查

房產(chǎn)要聞

質(zhì)價(jià)比標(biāo)桿!三亞首創(chuàng)浮島全景艙亮相,還得是萬(wàn)科!

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版