337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

書生XTuner V1開源,大模型的“超級發(fā)動機”來了!

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。

XTuner V1 是伴隨上海AI實驗室“通專融合”技術路線的持續(xù)演進,以及書生大模型研發(fā)實踐而成長起來的新一代訓練引擎。相較于傳統(tǒng)的 3D 并行訓練引擎,XTuner V1 不僅能應對更加復雜的訓練場景,還具備更快的訓練速度,尤其在超大規(guī)模稀疏混合專家(MoE)模型訓練中優(yōu)勢顯著。

除了訓練框架,書生大模型研發(fā)中使用的 AIOps 工具 DeepTrace 與 ClusterX 也將一并開源,為大規(guī)模分布式訓練提供全方位保障。XTuner V1已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗。


模型地址

https://wisemodel.cn/codes/Intern/xtuner

01.

訓練方案

目前開源社區(qū)主流的訓練方案主要分為兩類:

1、DeepSpeed / PyTorch FSDP(Fully Shard Data Parallel):通信量大但使用簡單,尤其適合稠密型模型訓練,開發(fā)者無需具備專業(yè)的 AI Infra 知識,也能開發(fā)出接近最優(yōu)性能的訓練系統(tǒng);

2、3D 并行:通信量小但使用復雜,開發(fā)者需要具備專業(yè)的 AI Infra 知識,針對不同硬件和訓練場景進行針對性調(diào)優(yōu),尤其適用 MoE 模型訓練。

為了同時兼顧易用性、高性能與超大模型訓練,XTuner V1 基于 PyTorch FSDP 進行開發(fā),并針對 FSDP 通信量大的固有缺陷,進行了系列優(yōu)化,可支持 1T 參數(shù)量級 MoE 模型訓練,并首次在 200B 以上量級的混合專家模型上,實現(xiàn)訓練吞吐超越傳統(tǒng)的 3D 并行訓練方案。

針對當前主流的 MoE 后訓練需求,XTuner V1 不使用序列并行就能實現(xiàn) 200B 量級 MoE 模型單次 forward-backward 可處理 64k 序列長度,更適合當下流行的強化學習訓練場景;對專家并行依賴小,長序列訓練時受專家不均衡影響小,200B 量級 MoE 無需專家并行,600B MoE 只需節(jié)點內(nèi)專家并行,更適合現(xiàn)代 MoE Dropless 訓練模式;大規(guī)模長短序列混訓場景提速 2 倍以上,數(shù)據(jù)并行負載均衡,大幅減小因需序列長度不均衡導致的計算空泡。

同時,為了進一步挖掘 XTuner V1 訓練方案的上限,研究團隊與華為昇騰技術團隊在 Ascend A3 NPU 超節(jié)點上進行聯(lián)合優(yōu)化,充分利用超節(jié)點硬件特性,實現(xiàn)了更高的 MFU(Model FLOPS Utilization,模型浮點運算利用率)。在理論算力落后 NVIDIA H800 近 20% 的情況下,最終實現(xiàn)訓練吞吐超過 H800 近 5%,MFU 反超 20% 以上,該項研究成果技術報告也將于近期發(fā)布。


02.

訓練引擎介


多維度技術優(yōu)化,專為“超大模型”而生

XTuner V1 之所以能在超大模型訓練中展現(xiàn)出卓越的性能,核心在于它在顯存、通信、負載等多個維度進行了系統(tǒng)性優(yōu)化。這些優(yōu)化協(xié)同作用,不僅帶來了性能的跨越式提升,還兼顧了易用性、通用性與擴展性。


顯存優(yōu)化

Pytorch FSDP 與 3D 并行最大的差異在于重計算。3D 并行時會盡可能減少重計算的占比,顯存峰值主要來自于計算圖中記錄的激活值;Pytorch FSDP 則嚴重依賴于重計算,顯存峰值主要來自于為重計算保留的激活值和模型最后計算損失函數(shù)時的計算圖。

針對計算損失函數(shù)時的計算圖,XTuner V1 參考 Liger-Kernel 中的做法,開發(fā)了一套可以支持多種訓練場景和多種硬件的自動 Chunk Loss 機制;針對重計算保留的激活值,XTuner V1 借鑒了 MindSpeed 中的 Async Checkpointing Swap。


Async Checkpointing Swap 會在模型第 i 層前向計算開始時,將重計算需要保存的激活值從 Device 搬運到 Host,釋放對應激活值占用的顯存;在第 m 層反向傳播時,會提前將第 m-1 層重計算需要的激活值從 Host 側(cè)搬運回 Device 側(cè),反向傳播結束時會自動釋放對應的顯存占用。

最終,無需借助序列并行技術,實現(xiàn) 200B 參數(shù)量級 MoE 模型訓練 64K 長度序列。


通信掩蓋

FSDP 會將參數(shù)均勻地切分在每張卡上,在模型的第 i 層計算時,會提前聚合第 i+1 層的參數(shù),當?shù)?i 層計算結束后,會將第 i 層的參數(shù)重新切分回每張卡上。這種模式極大地節(jié)省了模型參數(shù)占用的顯存,但也增大了通信量,如果每層計算的耗時小于通信耗時,就會產(chǎn)生計算空泡,導致算力浪費。


得益于極致的顯存優(yōu)化,XTuner V1 可以讓單次迭代的最大序列長度提升數(shù)倍,從而增加每層計算的耗時,掩蓋參數(shù)聚合的通信耗時。


針對因顯存或通信帶寬受限,無法實現(xiàn)通信掩蓋的訓練場景,XTuner V1 通過 Intra-Node Domino-EP 來降低每一層聚合參數(shù)的通信量,同時掩蓋因引入專家并行帶來的額外通信開銷。



DP 負載均衡

大模型訓練時,通常會將多條句子拼接至一個固定長度,計算時使用變長注意力機制。32 個 1k 長度句子拼接得到的 32k 序列,計算耗時會遠小于 2 個 16k 句子拼接得到的 32k 序列,數(shù)據(jù)并行維度越大,越容易出現(xiàn)計算空泡。

由于 XTuner V1 中沒有引入 TP、PP 等并行策略,相同卡數(shù)下,數(shù)據(jù)并行的維度會遠大于 3D 并行。為了緩解變長注意力帶來的計算空泡,并盡可能不影響數(shù)據(jù)的訓練順序,會對每 n 個 step 內(nèi)的已拼接好的序列進行排序,讓每次計算時,不同 DP 的最長子序列長度是接近的。



基于昇騰超節(jié)點深度優(yōu)化,

理論算力落后情況下訓練效率反超業(yè)界產(chǎn)品

為了進一步探究 XTuner V1 訓練方案的上限,研究團隊與華為昇騰技術團隊在 Ascend A3 NPU 超節(jié)點上進行了深度優(yōu)化,充分利用超節(jié)點硬件特性,實現(xiàn)了更高的 MFU。在理論算力落后 NVIDIA H800 20% 的情況下,最終實現(xiàn)訓練吞吐反超 H800 近 5%,MFU 反超 20% 以上。

昇騰超節(jié)點通過高速總線連接多顆 NPU,突破互聯(lián)瓶頸,讓超節(jié)點像一臺計算機一樣工作,更加適合 FSDP 訓練,相較于 NVIDIA H800:

  • 更高的通信帶寬:最大可實現(xiàn) 384 顆 NPU 點到點超大帶寬互聯(lián),F(xiàn)SDP All Gather 耗時僅為 H800 的 1/4~1/3,更容易實現(xiàn)計算-通信掩蓋。

  • 計算通信解耦:通過專用硬化調(diào)度和傳輸卸載,實現(xiàn)不占用計算核的高效數(shù)據(jù)通信,F(xiàn)SDP 計算通信掩蓋時不會影響計算速度。

  • 靈衢總線:CPU 和 NPU 通過靈衢總線互聯(lián),帶寬遠超 PCIe,Checkpointing Swap 的開銷更小。

除硬件固有優(yōu)勢外,昇騰還從通信、內(nèi)存、計算、框架、工具等維度對基于超節(jié)點的 MoE 訓練進行了全方位的加持:

  • Cube 調(diào)優(yōu):對于模型中集中了大量計算任務的 GroupedMatmul 算子進行分析,發(fā)現(xiàn)內(nèi)部搬運帶寬已經(jīng)擁塞但 cube 利用率還有提升空間。針對此問題,聯(lián)合研發(fā)團隊重點優(yōu)化 GroupedMatmul 算子分塊邏輯,根據(jù)不同輸入進行動態(tài)分塊 Tiling 策略優(yōu)化搬運效率。同時,根據(jù)場景的不同細化 Cache 策略,提高 Cache 命中率從而提升性能。

  • QoS 調(diào)優(yōu):QoS(Quality of Service)即服務質(zhì)量。在有限的帶寬資源下,QoS 為各種業(yè)務分配帶寬,為業(yè)務提供端到端的服務質(zhì)量保證。大規(guī)模訓練過程中,計算流、通信流、swap 流都會存在 HBM 帶寬訪問,并發(fā)的訪問會導致 HBM 帶寬擁塞,從而影響整體性能。通過適當調(diào)低通信的 HBM 訪存優(yōu)先級,可以減少計算的搬運時間,從而優(yōu)化端到端性能。

  • 跨流內(nèi)存復用:在FSDP 計算流和通信流異步重疊的場景中,Ascend Extension for PyTorch(PTA)中默認的跨流內(nèi)存優(yōu)化會導致顯存不能及時釋放,需要開啟 PTA 中進階版的跨流內(nèi)存復用機制(MULTI_STREAM_MEMORY_REUSE=2),可以顯著降低顯存峰值。

  • 集群性能工具高效診斷:借助 MindStudio 全流程工具鏈中的 msprof-analyze 性能分析工具與 MindStudio Insight 可視化工具,開發(fā)者可以充分利用其強大的數(shù)據(jù)分析與可視化能力,在分鐘級時間內(nèi)精準識別 訓練過程中的“快慢卡”現(xiàn)象根因,快速定位出性能瓶頸,顯著提升大集群調(diào)優(yōu)效率。


編輯丨趙雅鑫

----- END -----


wisemodel相關:

系列模型:


關于wisemodel更多



1

歡迎持續(xù)關注和支持

開源社區(qū)建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關注wisemodel.cn開源社區(qū)動態(tài),

2

歡迎加盟wisemodel開源社區(qū)

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領域相關的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學會協(xié)會、聯(lián)盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
20分32分42分!上海全員殺瘋,一夜爆3門慘案,3-12名亂成一鍋粥

20分32分42分!上海全員殺瘋,一夜爆3門慘案,3-12名亂成一鍋粥

后仰大風車
2026-03-26 06:05:05
五枚導彈,攔下四枚,就那漏網(wǎng)的一枚,不偏不倚,正好砸中…

五枚導彈,攔下四枚,就那漏網(wǎng)的一枚,不偏不倚,正好砸中…

福建平子
2026-03-25 10:14:49
突發(fā)大利好!重大利好!光模塊傳來重大利好!周四這概念要起飛嗎

突發(fā)大利好!重大利好!光模塊傳來重大利好!周四這概念要起飛嗎

Thurman在昆明
2026-03-26 01:53:49
新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社
2026-03-26 10:06:18
中國最有名的9條家訓,讀懂一條旺家三代,建議收藏反復背誦

中國最有名的9條家訓,讀懂一條旺家三代,建議收藏反復背誦

長風文史
2026-03-25 17:58:23
張雪峰的影響力,被嚴重低估了

張雪峰的影響力,被嚴重低估了

黔有虎
2026-03-26 14:32:34
隨著雷霆12連勝被終結,湖人137-130,西部最新排名出爐!馬刺第2

隨著雷霆12連勝被終結,湖人137-130,西部最新排名出爐!馬刺第2

薇說體育
2026-03-26 10:48:02
老師穿短裙蕾絲襪上課,學生連頭都不敢抬!老師穿衣底線到底在哪

老師穿短裙蕾絲襪上課,學生連頭都不敢抬!老師穿衣底線到底在哪

小羽叨叨叨
2026-03-26 13:24:34
多人被立案偵查!中山發(fā)布工礦商貿(mào)行業(yè)生產(chǎn)安全事故評估報告

多人被立案偵查!中山發(fā)布工礦商貿(mào)行業(yè)生產(chǎn)安全事故評估報告

南方都市報
2026-03-26 19:30:16
路透社:歐盟警告越南,敢用中國5G,就讓外資撤光!

路透社:歐盟警告越南,敢用中國5G,就讓外資撤光!

泠泠說史
2026-03-26 18:06:17
7旬男子陪老伴住院,醫(yī)生看了他一眼發(fā)現(xiàn)其面部有猝死先兆,將其從死亡邊緣拉回

7旬男子陪老伴住院,醫(yī)生看了他一眼發(fā)現(xiàn)其面部有猝死先兆,將其從死亡邊緣拉回

觀威海
2026-03-26 09:55:04
“我用房子貸的款卻進了他們口袋”,佛山一男子稱遭遇套路貸;警方立案偵查,3人被批捕后取保候?qū)?>
    </a>
        <h3>
      <a href=大風新聞
2026-03-26 16:56:40
回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風韻猶存

回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風韻猶存

素衣讀史
2026-03-25 21:05:22
保姆偷拿我兩瓶茅臺,我辭退未揭穿,臨走她指我舊鞋,剪開后我懵了...

保姆偷拿我兩瓶茅臺,我辭退未揭穿,臨走她指我舊鞋,剪開后我懵了...

感覺會火
2026-03-26 12:06:22
張雪峰家屬:周六舉行追悼會!平時沒胸悶、沒心臟病,能放心運動嗎?醫(yī)生提醒

張雪峰家屬:周六舉行追悼會!平時沒胸悶、沒心臟病,能放心運動嗎?醫(yī)生提醒

上觀新聞
2026-03-26 14:45:10
快扔掉!戴一天,輻射量相當于拍117次胸片

快扔掉!戴一天,輻射量相當于拍117次胸片

FM93浙江交通之聲
2025-10-28 00:01:43
603444,業(yè)績大增!擬10派70元!

603444,業(yè)績大增!擬10派70元!

證券時報e公司
2026-03-26 19:32:17
越扒越有!張雪峰去世早有預兆,他的2個不良愛好,或成催命符

越扒越有!張雪峰去世早有預兆,他的2個不良愛好,或成催命符

叨嘮
2026-03-26 00:57:32
3-1奪冠!中國女乒29歲王牌復蘇:組最強豪陣劍指世乒賽

3-1奪冠!中國女乒29歲王牌復蘇:組最強豪陣劍指世乒賽

李喜林籃球絕殺
2026-03-26 20:29:48
伊朗發(fā)起的第81波打擊

伊朗發(fā)起的第81波打擊

舍長阿爺談事
2026-03-26 23:38:25
2026-03-27 03:23:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

手機
房產(chǎn)
健康
藝術
公開課

手機要聞

1499 iQOO Z11系列發(fā)布丨9020mAh電池 165Hz高刷

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補償方案出爐!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

藝術要聞

北京大興機場和青島膠東機場“撞臉”,長得像就是抄襲?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版