![]()
機器之心編輯部
2025 年 4 月,Sand.ai 開源了 MagiAttention v1.0.0,定義了下一代分布式 Attention 的全新設計和系統框架。歷經一年的深耕,今天Sand.ai正式發布:MagiAttention v1.1.0,以更成熟的原生算子組件,重新定義 Hopper 與 Blackwell 兩代架構分布式 Attention 的性能上限
![]()
- 代碼倉庫:https://github.com/SandAI-org/MagiAttention
- 使用文檔:https://sandai-org.github.io/MagiAttention/docs
- 技術博客:https://sandai-org.github.io/MagiAttention/docs/main/blog/magi_attn
Blackwell 新架構適配:釋放下一代算力紅利
為了在下一代硬件上延續 Flex-Flash-Attention (FFA) 的靈活性,研發團隊引入了基于 Flash-Attention 4 的 FFA_FA4 后端,完成了對 Blackwell 架構的初步適配:
- 靈活掩碼支持:引入 HSTU Function 表達,在無需大幅改動 FA4 內核主體邏輯的前提下,實現了對任意掩碼的無縫兼容,且性能損耗 < 5%。
- 高效分塊稀疏生成:開發了高效分塊掩碼生成算子,大大降低了 FlexAttention 實例化完整掩碼的性能開銷和顯存風險。
- R2P 指令級加速:我們利用 Register-to-Predicate 技巧,將復雜的邊界檢查映射為單條硬件指令,大幅降低了指令周期。
- 極致顯存和延遲:針對超長序列,對掩碼元數據進行 CSR 壓縮,對內核啟動進行 FFI 加速,確保顯存與延遲的雙重極致。
原生 Group Collective 原語:突破 RDMA 帶寬瓶頸
跨機通信效率決定了分布式擴展上限,受 DeepEP 啟發,Sand.ai 構建了原生 Group Collective 通信內核,徹底重塑了分布式 Attention 在節點內外的數據交換范式:
- 算子級融合:研發團隊將數據重排直接融合進通信算子,顯著降低了訪存和額外拷貝開銷。
- RDMA 傳輸去重:以 "NVLink 替代冗余 RDMA" 傳輸,實現節點間單次物理交換與節點內高效轉發和規約,跨機通信量降低數倍,性能遠超傳統 AlltoAll-v 方案。
系統級協同優化:負載均衡與多階段重疊
MagiAttention 的卓越性能不僅源于算子端的極致打磨,更得益于系統級的全棧協同調度和全場景通用的啟發式算法:
- Dispatch Solver: 基于最小堆貪心算法,實現序列的細粒度分配,保證任意掩碼下設備的計算負載均衡,避免 “短板效應” 拖垮分布式整體性能。
- Adaptive Multi-Stage Overlap: 突破靜態流水線限制,自適應調整流水線階段,通過最小化調度開銷實現極致重疊,為超長序列訓練提供線性擴展保障。
實測表現與應用
目前,MagiAttention v1.1.0 已在 Magi-1 等大規模視頻生成模型訓練中得到實證,也在各大廠中被 “悄悄” 應用于多模態大模型訓練。為了驗證 MagiAttention 在真實長文訓練中的表現,Sand.ai 也給出了細致的 Benchmark 結果:
- 算子層面:支持靈活掩碼并維持 SOTA 性能
![]()
H100/B200 Varlen Causal 掩碼下前反向的內核算子性能對比
- 分布式層面:重塑超長序列的擴展性曲線
![]()
H100/B200 Varlen Causal 掩碼下前反向的分布式性能對比
結語與未來展望
自去年 v1.0 發布以來,Sand.ai 收到的社區反饋讓研發團隊更加堅定:只有將底層算力壓榨到極限,才能開啟人工智能處理復雜多模態任務的新篇章。MagiAttention v1.1.0,是 Sand.ai 向這一愿景邁進的關鍵一步。Sand.ai 相信,強大的模型能力必須建立在普惠且極致的技術基石之上。
了解更多信息,歡迎訪問 Sand.ai 官網:https://sand.ai
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.