337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

SemiAnalysis 重磅拆解:Blackwell架構全細節,英偉達從未公開的秘密

0
分享至

英偉達Blackwell GPU代表了近年來最重大的GPU微架構變革之一,但迄今缺乏詳盡的官方白皮書。

知名半導體研究機構SemiAnalysis歷時數月,對Blackwell架構進行了系統性微基準測試,首次公開了該架構在AI工作負載下的硬件性能上限數據。

測試結果顯示,Blackwell在張量核心(Tensor Core)吞吐量、內存子系統帶寬及新型2SM MMA指令等關鍵維度上均接近理論峰值,但性能表現高度依賴指令形狀配置,部分場景下存在明顯的帶寬瓶頸。這一發現對AI基礎設施投資者和芯片采購方具有直接參考價值——架構潛力能否充分釋放,取決于軟件層面的精細調優。

SemiAnalysis已將相關基準測試代碼庫開源,測試所用B200節點由Nebius和Verda提供。研究團隊同時宣布,后續將擴展至TPU Pallas內核、Trainium NKI內核及AMD CDNA4匯編的基準測試。

架構核心變化:TMEM引入與2SM MMA

從Hopper到Blackwell,英偉達對MMA相關指令的PTX抽象層進行了多項重要調整。

最顯著的變化是引入了張量內存(TMEM)用于存儲MMA累加器。在此前架構中,線程隱式持有MMA運算結果;Blackwell改為由軟件在MMA作用域內顯式管理TMEM,改變了線程與計算結果之間的所有權關系。

與此同時,tcgen05操作現在由單一線程代表整個CTA(協作線程陣列)發出,而非此前Hopper架構中以warp或warpgroup為單位發出。這一變化在CuTe MMA原子中有直接體現:Blackwell使用ThrID = Layout<_1>,而Hopper使用ThrID = Layout<_128>。

Blackwell還引入了TPC作用域的TMA和MMA,支持兩個協同CTA跨SM對執行tcgen05.mma,共享操作數,從而在降低每個CTA共享內存帶寬需求的同時,提供更高運算強度的MMA指令。此外,該架構原生支持帶微縮放的亞字節數據類型,并引入了集群啟動控制(CLC)作為持久化CTA內核中動態工作調度的硬件支持。

芯片物理布局:雙Die架構與300周期跨Die延遲

SemiAnalysis通過逆向工程手段,揭示了B200芯片的物理拓撲結構。

研究團隊利用PTX %%smid指令,通過啟動不同大小的集群來反向推斷SM到GPC(圖形處理集群)的映射關系。結果顯示,B200存在部分TPC獨占邏輯GPC的情況,這些TPC從不與其他TPC協同調度。

通過讓每個SM遍歷填滿L2緩存的指針追蹤數組并測量各SM間的訪問延遲,研究團隊構建了SM間距離矩陣。矩陣清晰呈現出兩組SM,平均L2訪問延遲差距超過300個時鐘周期,對應的正是兩個Die之間的跨Die訪問懲罰。

基于此,研究團隊推斷B200的Die級TPC分布如下:

  • Die A:各GPC分別包含10、10、10、9個TPC

  • Die B:各GPC分別包含9、9、9、5+3個TPC

這一物理布局差異意味著,即便邏輯配置相同的兩塊GPU,其物理SM分布也可能不同,構成潛在的性能非確定性來源。


內存子系統:LDGSTS與TMA的性能邊界

內存子系統測試聚焦于兩類異步拷貝指令:LDGSTS(異步拷貝)和TMA(張量內存加速器)。

LDGSTS方面,測試覆蓋了FlashInfer多頭注意力(MHA)內核的典型配置。結果顯示,LDGSTS內存吞吐量在32 KiB在途字節時飽和,峰值約為6.6 TB/s。16字節加載在相同在途字節數下略優于8字節加載,且消耗更少執行資源。延遲測試顯示,LDGSTS基線延遲約為600納秒,在途字節超過8 KiB后延遲接近翻倍,原因在于大量線程因MIO(內存輸入輸出)節流而停滯。


TMA方面,峰值吞吐量的達到明顯晚于LDGSTS。在低于32字節在途數據時,異步拷貝吞吐量略優于TMA;超過該閾值后TMA追上并可持續擴展至128 KiB。延遲方面,在途數據低于12 KiB時異步拷貝延遲略低,超過后TMA延遲大幅攀升。

TMA多播測試顯示,顯式TMA多播可完美消除L2流量,實現理想的"1/集群大小"L2字節比。隱式多播(各CTA獨立發出TMA加載至相同數據)在有效內存吞吐量上與顯式多播相當,但在超過64字節在途數據后,L2緩存流量削減效果開始下降。


張量核心性能:形狀依賴性顯著,2SM MMA實現完美弱擴展

張量核心測試是本次研究的核心部分,結果揭示了Blackwell MMA性能對指令形狀的高度敏感性。

吞吐量方面,對于1SM MMA,M=64的配置最高僅能達到理論峰值的50%,而M=128可接近100%。這證實M=64僅利用了一半數據通路。對于2SM MMA,M=128在N=64時吞吐量為峰值的90%,其余N尺寸均接近100%;M=256則在所有配置下均維持接近100%的峰值吞吐量,因為M=256等效于每SM處理M=128,可充分利用完整數據通路。


AB布局影響同樣顯著。當兩個輸入矩陣均存儲于共享內存(SS模式)時,M=128在N<128時存在明顯的SMEM帶寬瓶頸。以FP16為例,硬件每周期可執行8192 MMA FLOP,SMEM帶寬為128 B/周期,計算表明M=128 N=64 K=16配置下SMEM需要48個周期,而數學運算僅需32個周期,即指令受SMEM帶寬限制。所有數據類型均存在這一規律——雙操作數均在SMEM中的MMA指令,在N<128時均受SMEM帶寬約束。

2SM MMA實現了完美的弱擴展,相對于1SM MMA在使用兩倍計算資源時獲得2倍加速。在SS模式的小形狀配置下,由于操作數B在兩個SM間分片,甚至出現超過2倍的加速。研究結論明確:應始終使用給定SMEM tile尺寸下可用的最大指令形狀,以獲得最高吞吐量

延遲方面,所有配置下延遲均隨N從64增至128線性增長,N=256時出現跳躍。數據類型延遲排序呈現規律性:S8 < BF16 = E4M3 = F4 < MXF8 = MXF4,研究團隊認為整數運算功耗效率更高導致S8最快,而微縮放數據類型的縮放因子計算引入了輕微額外開銷。


實際在途指令數測試顯示,在典型內核使用的1至4條在途MMA指令場景下,4條在途MMA的吞吐量上限約為理論峰值的78%至80%,且1SM MMA比2SM MMA高出約5個百分點。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
白宮證實,特朗普下令要讓阿拉伯買單,不到24小時,盟友接連反水

白宮證實,特朗普下令要讓阿拉伯買單,不到24小時,盟友接連反水

黑鷹觀軍事
2026-04-01 16:27:48
巡回錦標賽戰報:趙心童5-3競逐四強!墨菲出局,世界第一險勝

巡回錦標賽戰報:趙心童5-3競逐四強!墨菲出局,世界第一險勝

求球不落諦
2026-04-02 05:37:16
別再叫他們明星了!這四位早就是資本大佬,難怪沒人敢惹!

別再叫他們明星了!這四位早就是資本大佬,難怪沒人敢惹!

川川八卦說
2026-03-31 17:02:15
算力租賃第一股,砸210億擴產!

算力租賃第一股,砸210億擴產!

飛鯨投研
2026-04-01 18:33:10
CBA狂歡夜!北控3分絕殺,遼寧+山東贏球:最新積分:北京跌至第5

CBA狂歡夜!北控3分絕殺,遼寧+山東贏球:最新積分:北京跌至第5

小火箭愛體育
2026-04-01 21:54:55
劉燁、聶遠、王佳佳領銜主演,罪案劇《叵測》開播

劉燁、聶遠、王佳佳領銜主演,罪案劇《叵測》開播

新京報
2026-04-01 23:49:23
爆冷,北京不敵浙江,賽后聽聽京媒怎么說,趙睿缺席影響太大了

爆冷,北京不敵浙江,賽后聽聽京媒怎么說,趙睿缺席影響太大了

林子說事
2026-04-02 00:19:07
伊朗的最大強援抵達,車隊浩浩蕩蕩進入伊朗境內!

伊朗的最大強援抵達,車隊浩浩蕩蕩進入伊朗境內!

深度報
2026-03-31 22:30:18
國家發展改革委固定資產投資司原副司長王悅現被查

國家發展改革委固定資產投資司原副司長王悅現被查

新京報
2026-03-31 18:10:09
英國專家:中國突破禁令的方式簡單粗暴,美國將助中國科技騰飛

英國專家:中國突破禁令的方式簡單粗暴,美國將助中國科技騰飛

普陀動物世界
2026-04-02 00:06:45
快滅國還要與中國斷交,抱“大腿”無望后,卻又要回頭向中國求援

快滅國還要與中國斷交,抱“大腿”無望后,卻又要回頭向中國求援

鑒史錄
2026-04-01 23:23:27
曾黎穿白裙竟如此嫵媚,這胸圍這身材讓年輕小花都臉紅,誰敢信?

曾黎穿白裙竟如此嫵媚,這胸圍這身材讓年輕小花都臉紅,誰敢信?

娛樂領航家
2026-04-01 22:30:03
喜迎蛻變!隨著火箭111:94大勝尼克斯,三大不爭事實一目了然!

喜迎蛻變!隨著火箭111:94大勝尼克斯,三大不爭事實一目了然!

田先生籃球
2026-04-01 11:26:36
一場被謊言掩蓋的勝利:誰在刻意制造“美軍困境”?

一場被謊言掩蓋的勝利:誰在刻意制造“美軍困境”?

斌聞天下
2026-03-31 07:15:03
重建信任太難了!伊朗外長深夜發聲:我們打的是美軍不是鄰居

重建信任太難了!伊朗外長深夜發聲:我們打的是美軍不是鄰居

琨玉秋霜
2026-04-02 06:33:02
5分鐘開通國家免費電視!不用機頂盒、不連網,永久免費

5分鐘開通國家免費電視!不用機頂盒、不連網,永久免費

叮當當科技
2026-03-20 03:29:51
解放軍大批艦船“包圍”中業島,收復時機已到!要戰我們奉陪到底

解放軍大批艦船“包圍”中業島,收復時機已到!要戰我們奉陪到底

無悔的燦爛人生
2026-03-31 20:07:36
三花智控,全球搶單!

三花智控,全球搶單!

投研邦V
2026-04-01 19:36:33
權恩妃,有容乃大,真不是蓋的!!這誰忍得住不愛?

權恩妃,有容乃大,真不是蓋的!!這誰忍得住不愛?

手工制作阿殲
2026-04-02 00:51:40
龍頭企業凌晨突發通告!3萬人被裁員,更多細節被扒,遠不止于此

龍頭企業凌晨突發通告!3萬人被裁員,更多細節被扒,遠不止于此

青橘罐頭
2026-04-02 07:16:30
2026-04-02 07:51:00
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領先的金融商業信息提供商
143948文章數 2653097關注度
往期回顧 全部

科技要聞

一條Claude Code 源代碼的社會性死亡

頭條要聞

與美澳合謀之后 高市又想與法國制定計劃擺脫對華依賴

頭條要聞

與美澳合謀之后 高市又想與法國制定計劃擺脫對華依賴

體育要聞

NBA擴軍,和籃球無關?

娛樂要聞

張婉婷已決定離婚 找律師討論婚變事宜

財經要聞

電商售械三水光針 機構倒貨or假貨猖獗?

汽車要聞

三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

態度原創

教育
時尚
旅游
家居
藝術

教育要聞

漫畫類作文難在你看不透畫面背后的信息

襯衫當外套,好時髦

旅游要聞

激發銀發旅游市場活力有何妙招?從“無差別服務”到“精準分層服務”

家居要聞

經典配色 晝色銀河

藝術要聞

齊白石這兩幅梅花,絕了!

無障礙瀏覽 進入關懷版