337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)最強(qiáng)B200算力浪費(fèi)60%!普林斯頓團(tuán)隊(duì)出手,利用率升至71%

0
分享至

聞樂(lè) 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

所有用英偉達(dá)Blackwell B200的人,都在花冤枉錢(qián)??

普林斯頓大學(xué)等聯(lián)合團(tuán)隊(duì)指出,這款GPU居然因?yàn)?strong>軟硬件適配問(wèn)題白白浪費(fèi)了60%的計(jì)算資源



算力浪費(fèi)了,咋辦呢——FlashAttention-4給出了答案。

這款專(zhuān)為Blackwell架構(gòu)GPU量身打造的注意力算法,一舉將利用率從行業(yè)普遍的20%-30%推至71%

FlashAttention-4由Tri Dao領(lǐng)銜、攜手Meta、Together AI等團(tuán)隊(duì)共同研發(fā)。

嗯,英偉達(dá)自己也參與其中了



Blackwell B200有力使不出

英偉達(dá)Blackwell B200作為新一代數(shù)據(jù)中心GPU,其tensor core張量核心算力達(dá)到2.25 PFLOPS,是上一代Hopper H100的2倍。

理論上能讓注意力計(jì)算的速度實(shí)現(xiàn)跨越式提升。

但理想很豐滿(mǎn)……

這款GPU發(fā)生了嚴(yán)重的偏科。

核心算力猛增的同時(shí),關(guān)鍵的配套計(jì)算單元卻原地踏步。

其中,負(fù)責(zé)指數(shù)運(yùn)算的MUFU單元吞吐量與Hopper架構(gòu)完全一致,沒(méi)有任何提升;

共享內(nèi)存的帶寬也保持原樣,并未跟隨張量核心同步升級(jí)。

這一硬件設(shè)計(jì)的不對(duì)稱(chēng)性,直接導(dǎo)致了性能瓶頸的反轉(zhuǎn)。

在大模型核心的注意力計(jì)算負(fù)載中,原本的性能瓶頸矩陣乘法,如今耗時(shí)遠(yuǎn)低于輔助環(huán)節(jié),共享內(nèi)存的讀寫(xiě)操作和指數(shù)運(yùn)算的耗時(shí),反而比矩陣乘法多出25%-60%

算力翻倍的Tensor Core長(zhǎng)期處于等待狀態(tài),大量計(jì)算資源就這么被閑置了。

于是,大量開(kāi)發(fā)者花費(fèi)重金部署的B200 GPU,因核心算力與配套單元的脫節(jié),超六成資源被白白浪費(fèi)

算力翻倍?

No!明明是有力使不出……

FlashAttention-4三招破解瓶頸

針對(duì)Blackwell GPU的偏科問(wèn)題,F(xiàn)lashAttention-4量身打造了三大優(yōu)化策略。



第一招,多管齊下化解指數(shù)運(yùn)算與內(nèi)存讀寫(xiě)難題。

團(tuán)隊(duì)一方面通過(guò)軟件模擬指數(shù)函數(shù),借助多項(xiàng)式近似的方法,讓高速的FMA計(jì)算單元參與到原本由MUFU單元負(fù)責(zé)的指數(shù)運(yùn)算中,大幅提升指數(shù)計(jì)算的吞吐量;

同時(shí)通過(guò)混合硬件計(jì)算與軟件模擬的方式,在提速的同時(shí)保證計(jì)算精度。



另一方面推出條件性softmax rescaling策略,僅在必要時(shí)執(zhí)行softmax的縮放操作,直接跳過(guò)大量無(wú)用的計(jì)算步驟,減少非矩陣乘法的運(yùn)算量。

此外,團(tuán)隊(duì)充分利用Blackwell架構(gòu)的2-CTA MMA模式,讓兩個(gè)計(jì)算單元搭檔完成矩陣運(yùn)算,各自?xún)H加載一半的運(yùn)算數(shù)據(jù)。

這就將共享內(nèi)存的讀寫(xiě)量直接砍半,同時(shí)還減少了后續(xù)的原子操作,從根源上緩解共享內(nèi)存的帶寬壓力。



第二招,重構(gòu)計(jì)算流水線,實(shí)現(xiàn)算力的并行最大化。

FlashAttention-4深度適配Blackwell架構(gòu)的全異步MMA操作和新增的張量?jī)?nèi)存TMEM,重新設(shè)計(jì)了注意力計(jì)算的前向和反向流水線。

讓softmax計(jì)算與矩陣乘法這兩個(gè)核心環(huán)節(jié)實(shí)現(xiàn)完全的計(jì)算重疊。



當(dāng)硬件的張量核心在處理一個(gè)矩陣塊時(shí),另一部分硬件資源可同時(shí)對(duì)另一個(gè)數(shù)據(jù)塊執(zhí)行softmax計(jì)算,避免硬件算力的空閑。

第三招,兼顧硬件迭代,為下一代GPU預(yù)留優(yōu)化空間。

研發(fā)團(tuán)隊(duì)同時(shí)考慮到Blackwell架構(gòu)的硬件升級(jí)趨勢(shì),目前B300/GB300 GPU的指數(shù)運(yùn)算單元吞吐量已翻倍至32 ops/clock/SM

針對(duì)這一變化,團(tuán)隊(duì)明確表示,F(xiàn)lashAttention-4當(dāng)前的軟件模擬指數(shù)運(yùn)算方案,在下一代硬件上會(huì)根據(jù)實(shí)際性能表現(xiàn)重新權(quán)衡,確保算法能持續(xù)適配硬件的迭代升級(jí)。

告別 C++,編譯速度狂飆30倍

除了算法層的深度優(yōu)化,F(xiàn)lashAttention-4在開(kāi)發(fā)層面也帶來(lái)了變化。

與此前基于C++模板開(kāi)發(fā)的FlashAttention-3不同,FlashAttention-4的全部代碼基于Python的領(lǐng)域?qū)S冒姹綜uTe-DSL框架編寫(xiě),實(shí)現(xiàn)了零C++代碼開(kāi)發(fā)

這一設(shè)計(jì)帶來(lái)的是編譯的效率躍升。

前向傳播內(nèi)核的編譯時(shí)間從FlashAttention-3的55秒縮短至2.5秒,提速22倍;

反向傳播的編譯時(shí)間從45秒降至1.4秒,提速32倍,整體編譯速度最高狂飆30倍。



在B200 GPU上的實(shí)測(cè)數(shù)據(jù)顯示,其前向傳播算力最高達(dá)到1613 TFLOPS/s,一舉實(shí)現(xiàn)71%的理論峰值利用率。

對(duì)比主流的計(jì)算框架,F(xiàn)lashAttention-4的優(yōu)勢(shì)也比較明顯。

比英偉達(dá)官方的cuDNN 9.13快1.1-1.3倍,比常用的Triton框架快2.1-2.7 倍。



且在長(zhǎng)序列、因果掩碼等大模型訓(xùn)練推理的核心場(chǎng)景中,性能優(yōu)勢(shì)更為突出。

One More Thing

論文還指出,cuDNN從9.13版本開(kāi)始就已經(jīng)開(kāi)始反向吸收了FA4的核心技術(shù)。



看來(lái),英偉達(dá)自己也忍不住抄作業(yè)了(doge)。

論文地址:https://arxiv.org/abs/2603.05451
參考鏈接:https://x.com/alex_prompter/status/2033885345935462853?s=20

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
和特朗普剛談完,高市笑容消失,美方還在拖,中方已經(jīng)出手

和特朗普剛談完,高市笑容消失,美方還在拖,中方已經(jīng)出手

黑鷹觀軍事
2026-03-20 17:06:26
伊朗突然對(duì)沙特宣戰(zhàn):巴鐵如果幫助盟國(guó)沙特,中國(guó)武器會(huì)登場(chǎng)嗎?

伊朗突然對(duì)沙特宣戰(zhàn):巴鐵如果幫助盟國(guó)沙特,中國(guó)武器會(huì)登場(chǎng)嗎?

影像溫度
2026-03-19 09:52:35
伊朗警告日本后,石破茂當(dāng)著全日本的面,說(shuō)出高市最不想聽(tīng)的話

伊朗警告日本后,石破茂當(dāng)著全日本的面,說(shuō)出高市最不想聽(tīng)的話

湘評(píng)中外
2026-03-20 17:14:12
何穗分享在家?guī)奕粘#活D5菜一湯,產(chǎn)后體質(zhì)變差脫發(fā)也很?chē)?yán)重

何穗分享在家?guī)奕粘#活D5菜一湯,產(chǎn)后體質(zhì)變差脫發(fā)也很?chē)?yán)重

八怪娛
2026-03-19 09:20:17
綠茶被關(guān)注!研究發(fā)現(xiàn):喝得越濃,壽命或越長(zhǎng)?告訴你真相

綠茶被關(guān)注!研究發(fā)現(xiàn):喝得越濃,壽命或越長(zhǎng)?告訴你真相

馬蹄燙嘴說(shuō)美食
2026-03-20 10:18:07
今日春風(fēng)丨北京周日氣溫或創(chuàng)今年來(lái)新高

今日春風(fēng)丨北京周日氣溫或創(chuàng)今年來(lái)新高

中工網(wǎng)
2026-03-20 16:25:04
外交部:中方對(duì)印度新任駐華大使魏嘉盟表示歡迎

外交部:中方對(duì)印度新任駐華大使魏嘉盟表示歡迎

環(huán)球網(wǎng)資訊
2026-03-20 15:30:17
杭州殺妻案許國(guó)利:死刑前求見(jiàn)前妻,對(duì)兩任妻子的評(píng)價(jià)天差地別!

杭州殺妻案許國(guó)利:死刑前求見(jiàn)前妻,對(duì)兩任妻子的評(píng)價(jià)天差地別!

詭譎怪談
2025-02-18 16:51:41
二百年不遇的二月清明,上墳別亂帶人,這4類(lèi)人盡量躲墳場(chǎng)

二百年不遇的二月清明,上墳別亂帶人,這4類(lèi)人盡量躲墳場(chǎng)

老特有話說(shuō)
2026-03-17 15:14:59
歐冠8強(qiáng)!巴薩賺麻了:獎(jiǎng)金1億歐元到手 若奪冠可拿1.4億

歐冠8強(qiáng)!巴薩賺麻了:獎(jiǎng)金1億歐元到手 若奪冠可拿1.4億

葉青足球世界
2026-03-19 21:09:53
白菜價(jià)再也沒(méi)有了!32G DDR5內(nèi)存漲了3000元 SK海力士:缺貨還將持續(xù)4到5年

白菜價(jià)再也沒(méi)有了!32G DDR5內(nèi)存漲了3000元 SK海力士:缺貨還將持續(xù)4到5年

快科技
2026-03-20 17:16:24
霍啟剛建議馬龍來(lái)香港學(xué)跳水,當(dāng)中國(guó)香港隊(duì)跳水運(yùn)動(dòng)員,馬龍回應(yīng):自己轉(zhuǎn)圈不行,之前轉(zhuǎn)三圈就暈了

霍啟剛建議馬龍來(lái)香港學(xué)跳水,當(dāng)中國(guó)香港隊(duì)跳水運(yùn)動(dòng)員,馬龍回應(yīng):自己轉(zhuǎn)圈不行,之前轉(zhuǎn)三圈就暈了

瀟湘晨報(bào)
2026-03-20 13:25:10
一周至少14次! 54歲男子腎衰竭,妻子:勸了很多次,就是不聽(tīng)

一周至少14次! 54歲男子腎衰竭,妻子:勸了很多次,就是不聽(tīng)

路醫(yī)生健康科普
2026-03-18 11:24:55
周總理一生中有哪些錯(cuò)誤?

周總理一生中有哪些錯(cuò)誤?

顧史
2026-03-19 14:58:48
傅盛深夜開(kāi)撕,稱(chēng)周鴻祎欠錢(qián)不還,360回應(yīng)

傅盛深夜開(kāi)撕,稱(chēng)周鴻祎欠錢(qián)不還,360回應(yīng)

第一財(cái)經(jīng)資訊
2026-03-20 13:32:39
章子怡真有本事,整的越來(lái)越不像自己,但是也很好看

章子怡真有本事,整的越來(lái)越不像自己,但是也很好看

喜文多見(jiàn)01
2026-03-19 15:13:45
要么投降,要么死在洞里——內(nèi)塔尼亞胡拒絕放走被困地道的哈馬斯

要么投降,要么死在洞里——內(nèi)塔尼亞胡拒絕放走被困地道的哈馬斯

桂系007
2025-11-05 23:52:21
復(fù)婚二胎剛反轉(zhuǎn),趙麗穎又因一句話被全網(wǎng)誤讀

復(fù)婚二胎剛反轉(zhuǎn),趙麗穎又因一句話被全網(wǎng)誤讀

橙星文娛
2026-03-20 17:10:15
六國(guó)發(fā)表聯(lián)合聲明:準(zhǔn)備采取措施保障霍爾木茲海峽安全

六國(guó)發(fā)表聯(lián)合聲明:準(zhǔn)備采取措施保障霍爾木茲海峽安全

新京報(bào)
2026-03-20 07:22:13
港股收評(píng):科指大跌2.48%,小米阿里重挫,寧德時(shí)代卻暴漲8%市值達(dá)3.19萬(wàn)億

港股收評(píng):科指大跌2.48%,小米阿里重挫,寧德時(shí)代卻暴漲8%市值達(dá)3.19萬(wàn)億

和訊網(wǎng)
2026-03-20 17:09:03
2026-03-20 18:16:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12315文章數(shù) 176417關(guān)注度
往期回顧 全部

科技要聞

新SU7只漲4千!雷軍:真怕交車(chē)慢挨罵

頭條要聞

母親帶1歲兒子看病如廁時(shí)把娃交人照看 兒子失蹤36年

頭條要聞

母親帶1歲兒子看病如廁時(shí)把娃交人照看 兒子失蹤36年

體育要聞

6年前的一場(chǎng)悲劇,造就了“法國(guó)瓦爾迪”

娛樂(lè)要聞

蔡康永小S“康熙合體”,兩人擁抱落淚

財(cái)經(jīng)要聞

金融法草案向社會(huì)公開(kāi)征求意見(jiàn)

汽車(chē)要聞

何小鵬坦白局:每月3億的“慌”與通向L4的堅(jiān)定

態(tài)度原創(chuàng)

游戲
藝術(shù)
本地
公開(kāi)課
軍事航空

小島秀夫發(fā)搞怪PS圖:安詳?shù)氐乖谧约旱膽牙?/h3>

藝術(shù)要聞

吳昌碩『圓扇花卉』清新俊逸

本地新聞

春色滿(mǎn)城關(guān)不住|紹興春日頂流,這片櫻花海藏不住了

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普會(huì)晤高市早苗 把美國(guó)襲擊伊朗比作偷襲珍珠港

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版