337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

FlashAttention-4正式發布:算法流水線大改,矩陣乘法級速度

0
分享至



機器之心編輯部

經過一年的努力,FlashAttention-4 終于正式上線了。

近日,深度學習領域重要底層優化技術 FlashAttention 迎來大版本更新。

FlashAttention 核心作者、普林斯頓大學助理教授 Tri Dao 表示,在 Blackwell GPU 上,即使瓶頸截然不同,注意力機制的執行速度現在也幾乎與矩陣乘法一樣快了!



當前,Tensor Core 的速度現在非常快,以至于注意力前向傳播的瓶頸呈指數級增長,而注意力后向傳播的瓶頸是共享內存帶寬。

重新設計的算法中包含一些旨在克服這些瓶頸的機制,包括使用多項式進行指數模擬,新的在線 softmax 可以避免 90% 的 softmax 重新縮放,2CTA MMA 指令允許兩個線程塊共享操作數以減少 smem 流量等。



  • 論文地址:https://github.com/Dao-AILab/flash-attention/blob/main/assets/fa4_paper.pdf
  • 代碼鏈接:https://github.com/Dao-AILab/flash-attention

接下來,就來詳細了解一下。

硬件趨勢:不對稱的硬件擴展

長期以來,Attention 作為無處不在的 Transformer 架構中的核心層,一直是大語言模型和長上下文應用的性能瓶頸。

此前 FlashAttention-3 通過異步執行和 warp 專門化對 Attention 進行了優化,但其主要針對的是 Hopper GPU(H100)架構。

然而,AI 行業已經迅速轉向部署 Blackwell 架構系統,例如 B200 和 GB200。而像 Blackwell GPU 這樣的現代加速器延續了一種趨勢:硬件的非對稱擴展(asymmetric hardware scaling)。

在這種趨勢下,張量核心(Tensor Core)的吞吐量增長速度遠快于其他硬件資源,像是共享內存帶寬、用于指數運算等超越函數運算的特殊函數單元(SFU),以及通用整數與浮點 ALU……

舉個例子,從 Hopper H100 到 Blackwell B200,BF16 張量核心吞吐量增加了 2.25 倍(從 1 到 2.25PFLOPs),但 SFU 數量和共享內存帶寬基本保持不變。

這種擴展不對稱性對像 Attention 這樣的復雜 kernel 優化產生了深遠影響。

具體來看,Attention 的核心包含兩個通用矩陣乘法(GEMM):





中間夾著 softmax,但在真實實踐中,Attention 還涉及大量輔助工作,比如數據搬運、同步、數據布局轉換、元素級運算、調度、mask 處理等。

傳統的觀點認為,Attention 的性能完全由 GEMM 的速度決定。然而,對 B200 進行「速度與饋送」分析顯示:主要的瓶頸不在于張量核心,而是:

  1. 前向傳播中用于 Softmax 指數運算的 SFU 單元;
  2. 反向傳播中的共享內存流量,受 shared memory bandwidth 限制。

為此,團隊推出FlashAttention-4,一種算法 + kernel 的協同設計,核心目標在于,通過最大化矩陣乘法與其他瓶頸資源之間的重疊,在 B200(BF16)上,最高可達 1605TFLOPs/s(71% 的利用率),比 cuDNN 9.13 快 1.3 倍,比 Triton 快 2.7 倍。

協同設計的核心思路如下:

  • 新型流水線:為前向和反向傳播分別設計了新的軟件流水線,利用 Blackwell 的全異步 MMA 和更大分塊(Tile)尺寸,最大化 Tensor Core 計算、softmax 計算以及內存操作之間的重疊執行;
  • 前向傳播 (FWD):在 FMA 單元上通過多項式近似實現指數函數的軟件仿真,以提升指數計算吞吐量;同時引入條件式 softmax 重縮放(conditional softmax rescaling),跳過不必要的重縮放操作,從而緩解 SFU 瓶頸;
  • 反向傳播 (BWD):利用張量內存 (TMEM) 存儲中間結果,以緩解共享內存流量壓力;同時,結合 Blackwell 新增的 2-CTA MMA 模式,進一步降低共享內存訪問,并將 atomic reduction 次數減少一半;此外,還支持確定性執行模式,以實現可復現訓練;
  • 調度優化:引入新的 tile 調度器,解決因果掩碼和變長序列導致的負載不均衡。

Blackwell 的新硬件特性

張量內存(TMEM):在 B200 上,148 個 SM(流式多處理器)中的每一個都配備了 256 KB 的 TMEM,與 Tensor Core 直接連接,用于 warp 同步的中間結果存儲。

完全異步的第五代張量核心:指令 tcgen05.mma 支持異步執行,并將累加結果存儲在 TMEM 中。對于 BF16 和 FP16,單個 CTA 可使用的最大 UMMA tile 為 128×256×16,約為 Hopper 架構中最大 WGMMA 原子塊的 2 倍。UMMA 由單個線程發起,從而減輕寄存器壓力,使得在不出現 Hopper warpgroup MMA 那種寄存器溢出問題的情況下,可以更容易地使用更大的 tile 和更深的流水線。

此外,這也使 warp 專門化更具可行性:部分 warp 負責搬運 tile,另一些 warp 負責發起 MMA,從而實現矩陣乘加運算與 softmax 計算以及內存訪問的重疊執行。tcgen05.mma 還可以直接從 TMEM 中讀取操作數 A。

2-CTA MMA:Blackwell 支持在同一 cluster 中由一對 CTA 共同執行一個 UMMA 運算,并跨越兩個 CTA 的 TMEM。由 leader CTA 中的一個線程發起 MMA,但在執行期間兩個 CTA 都必須保持活躍。通過在這對 CTA 之間拆分 M 和 N 維度,可以將 MMA 的 tile 尺寸擴展到 256×256×16,從而減少冗余數據傳輸并降低每個 CTA 的資源占用。在一個 kernel 中,CTA 組大小(1 或 2)在 TMEM 操作和 Tensor Core 運算之間必須保持一致。



編程語言與框架:CuTe-DSL

FlashAttention-4(FA4)完全使用 CuTe-DSL 實現,這是 CUTLASS 提供的 Python kernel DSL。

Kernel 代碼使用 Python 編寫,隨后 DSL 會將其降級(lower 為 PTX,再由 CUDA 工具鏈編譯為 GPU 機器代碼。

該編程模型在抽象層面與 CuTe / CUTLASS 保持一致,同時提供 PTX 級別的 escape hatch(底層控制接口)。與使用 C++ 模板相比,這種方式可以將編譯時間縮短約 20–30 倍。

對此,Tri Dao 更是在 X 上發帖稱感到「莫名興奮」,這意味著,安裝 /「編譯」現在只需幾秒鐘,而不是幾分鐘 / 幾小時。



Attention 性能基準測試

團隊展示了 FlashAttention-4 在 B200(BF16)上的性能結果,并將其與 FlashAttention-2 以及 Triton、Gluon 和 cuDNN 的實現進行了對比。

結果顯示:

  • 前向傳播(forward pass):FlashAttention-4 比 cuDNN 9.13 快 1.1–1.3 倍,比 Triton 實現快 2.1–2.7 倍。
  • 反向傳播(backward pass):在長序列長度場景下,FlashAttention-4 的表現始終優于其他基準模型。









而 FlashAttention-4 一經發布,也引起了大家的熱議。

Pytorch 官方宣布 FlexAttention 現已支持 FlashAttention-4 后端。



Pytorch 表示,很長一段時間以來,FlexAttention 讓研究人員能夠快速原型化各種自定義 Attention 變體,目前已有 1000 多個代碼倉庫采用,并有數十篇論文對其進行了引用。

然而,用戶常常會遇到性能瓶頸,直到 FlashAttention-4 的出現。

如今,他們已在 Hopper 和 Blackwell GPU 上為 FlexAttention 增加了 FlashAttention-4 后端。PyTorch 現在可以自動生成 CuTeDSL 的 score/mask 修改代碼,并通過 JIT 編譯為自定義 Attention 變體實例化 FlashAttention-4。

結果顯示,在算力受限的工作負載下,相比 Triton,仍可實現 1.2 倍到 3.2 倍的性能提升。研究人員再也不必在「靈活性」和「高性能」之間做單選題。

一位網友則認為,「FlashAttention-4 是一個里程碑?!乖?Blackwell 架構上,Attention 已經能夠達到接近矩陣乘法(matmul)速度,這意味著計算瓶頸將完全轉移到內存與通信上。約 1600TFLOPs 的 Attention 性能堪稱驚人 —— 相比 FlashAttention-3 提升了 2–3 倍?!高@將直接惠及所有前沿大模型?!挂驗椋斓?Attention 意味著更長的有效上下文窗口、更低的推理成本、更強的規?;评砟芰Α?/p>



更多內容,可查看論文原文獲取!

https://x.com/tri_dao/status/2029569881151263082

https://tridao.me/blog/2026/flash4/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗新任最高領袖感謝伊朗人民

伊朗新任最高領袖感謝伊朗人民

界面新聞
2026-03-12 22:00:00
72歲潘虹:在上海住復式樓,至今不會做飯,每年都參加同學聚會

72歲潘虹:在上海住復式樓,至今不會做飯,每年都參加同學聚會

天天熱點見聞
2026-03-12 07:42:00
索賠138億只是開始,巴拿馬闖下大禍,中國要對其全球資產動手

索賠138億只是開始,巴拿馬闖下大禍,中國要對其全球資產動手

浮光驚掠影
2026-03-11 22:17:46
OpenClaw創始人表達對騰訊抄襲不滿:大量抓取龍蝦數據卻不提供支持,服務器成本飆升

OpenClaw創始人表達對騰訊抄襲不滿:大量抓取龍蝦數據卻不提供支持,服務器成本飆升

回旋鏢
2026-03-12 14:56:05
6部薩德連夜撤走!當著全體高層的面,李在明喊出句掏心窩子的話

6部薩德連夜撤走!當著全體高層的面,李在明喊出句掏心窩子的話

云舟史策
2026-03-12 19:34:36
中東睿評|打不動也贏不了:美以與伊朗沖突或將重回混沌狀態

中東睿評|打不動也贏不了:美以與伊朗沖突或將重回混沌狀態

澎湃新聞
2026-03-12 17:16:27
“四個季度考核都是C,年度考核等級D”女子差1分合格,失去12.9萬年終獎,仲裁贏了官司輸了已上訴

“四個季度考核都是C,年度考核等級D”女子差1分合格,失去12.9萬年終獎,仲裁贏了官司輸了已上訴

大風新聞
2026-03-12 18:40:43
叫停采購!中國再出手!必和必拓急了!

叫停采購!中國再出手!必和必拓急了!

新浪財經
2026-03-12 21:54:35
全國人大代表張全收:只要身體硬朗、自己愿意,建議允許60歲以上農民工繼續務工

全國人大代表張全收:只要身體硬朗、自己愿意,建議允許60歲以上農民工繼續務工

封面新聞
2026-03-12 11:45:03
西安不倒翁小姐姐離職:沒嫁入豪門,七年沒拿到編制,壓力太大!

西安不倒翁小姐姐離職:沒嫁入豪門,七年沒拿到編制,壓力太大!

眼光很亮
2026-03-12 19:25:00
水桶里的活魚擺出星型陣,不是懂禮貌而是快憋死了

水桶里的活魚擺出星型陣,不是懂禮貌而是快憋死了

果殼
2026-03-12 12:06:20
武漢男子做核磁被“綁”機器一整晚 涉事醫生:交接失誤,已被停職

武漢男子做核磁被“綁”機器一整晚 涉事醫生:交接失誤,已被停職

封面新聞
2026-03-12 18:29:04
哇這大體格,目測身高175,身形如此的勻稱,男人心中的完美伴侶

哇這大體格,目測身高175,身形如此的勻稱,男人心中的完美伴侶

小椰的奶奶
2026-03-13 05:39:41
1只也不行!2016年江蘇男子為給丈母娘補身體,和老丈人抓106只

1只也不行!2016年江蘇男子為給丈母娘補身體,和老丈人抓106只

萬象硬核本尊
2026-03-12 23:38:06
揚州一女子車禍被打后續:長相曝光,人無賴嘴惡毒,全家受到輿論

揚州一女子車禍被打后續:長相曝光,人無賴嘴惡毒,全家受到輿論

奇思妙想草葉君
2026-03-11 22:56:10
騰訊發文:非常緊張,盡量爭取

騰訊發文:非常緊張,盡量爭取

時間財經
2026-03-12 15:20:55
到底誰毀了中國的旅游?

到底誰毀了中國的旅游?

謠談鄉村振興
2026-03-12 06:45:03
生死時速72小時,營救伊朗女球員

生死時速72小時,營救伊朗女球員

家傳編輯部
2026-03-12 11:07:56
“鐵飯碗”真香!湖北網友曬夫妻收入一年50萬,干20年能掙1000萬

“鐵飯碗”真香!湖北網友曬夫妻收入一年50萬,干20年能掙1000萬

火山詩話
2026-03-12 06:53:38
滿門抄斬式復仇!孟加拉前總理家破人亡,屠龍少年終成惡龍

滿門抄斬式復仇!孟加拉前總理家破人亡,屠龍少年終成惡龍

王楔曉
2026-03-12 13:23:46
2026-03-13 08:43:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12488文章數 142585關注度
往期回顧 全部

科技要聞

當養蝦人開始卸載,大廠的戰爭才真正開始

頭條要聞

中國女子稱迪拜導航失靈:快到了卻顯示還有6500公里

頭條要聞

中國女子稱迪拜導航失靈:快到了卻顯示還有6500公里

體育要聞

建議將“出球型門將”納入反詐app

娛樂要聞

貝克漢姆全家給27歲大布送生日祝福

財經要聞

"短劇"苦抄襲

汽車要聞

大眾2025財報:轉型雖有陣痛 "大象"已然起跑

態度原創

旅游
本地
游戲
數碼
公開課

旅游要聞

西安城墻下有條“喵喵巷”,到處都是貓咪,超適合拍照!

本地新聞

坐標北京,過敏季反向遷徒

《紅色沙漠》前開發者:本作與常見的虛幻5游戲不同

數碼要聞

前微軟高管評MacBook Neo:微軟當年曾手握所有拼圖

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版