![]()
![]()
![]()
DeepSpeed v0.18.8 于2026 年 3 月 13 日正式發(fā)布,這是一次以“修復(fù)問(wèn)題 + 提升穩(wěn)定性 + 改善開(kāi)發(fā)與構(gòu)建體驗(yàn)”為核心目標(biāo)的補(bǔ)丁版本。
該版本共包含9 次提交、16 個(gè)文件變更、260 行新增代碼、84 行刪除代碼,覆蓋訓(xùn)練穩(wěn)定性、日志控制、Evoformer 多架構(gòu)支持、ZeRO Stage1/2/3、FP16 精度配置、NPU 構(gòu)建、Async IO、測(cè)試與文檔等多個(gè)關(guān)鍵模塊。
本文將完全基于官方更新內(nèi)容,對(duì) DeepSpeed v0.18.8 的所有變更進(jìn)行逐條拆解與系統(tǒng)化解讀,幫助你快速理解本次版本升級(jí)帶來(lái)的實(shí)際價(jià)值。
一、版本概覽與更新重點(diǎn) 1. 基本信息
?版本號(hào):v0.18.8
?發(fā)布時(shí)間:2026 年 3 月 13 日
?版本類型:Patch Release(補(bǔ)丁版本)
本次 v0.18.8 主要聚焦以下幾個(gè)方面:
?日志與內(nèi)存監(jiān)控優(yōu)化:減少無(wú)意義的日志噪音
?Evoformer Attention 多架構(gòu)構(gòu)建修復(fù):解決編譯與調(diào)度根因
?FP16 loss_scale 校驗(yàn)增強(qiáng):避免隱性訓(xùn)練錯(cuò)誤
?ZeRO Stage1/2/3 穩(wěn)定性改進(jìn):CUDA stream 與日志行為修復(fù)
?Bloom 模型推理測(cè)試修復(fù)
?華為 Ascend NPU Async IO 構(gòu)建問(wèn)題修復(fù)
?AI 編碼代理項(xiàng)目規(guī)范新增
?測(cè)試覆蓋增強(qiáng)
?版本號(hào)更新
多個(gè) ZeRO 相關(guān)模塊中,see_memory_usage的日志調(diào)用被統(tǒng)一優(yōu)化:
? 同一位置同時(shí)調(diào)用
force=True與force=False? 在 rank0 或非必要場(chǎng)景下避免重復(fù)打印
涉及模塊包括:
? ZeRO Offload
? ZeRO Stage3
? ZeRO Stage1 & Stage2
? 參數(shù)分區(qū)與卸載流程
?顯著減少控制臺(tái)日志噪音
?在大規(guī)模分布式訓(xùn)練中提升可讀性
? 不影響原有內(nèi)存調(diào)試能力
Bloom 推理容器在特定 Transformers 版本檢測(cè)邏輯中存在異常行為。
修復(fù)點(diǎn)
? 原邏輯在檢測(cè)到 Transformers 版本超過(guò) 4.43.4 時(shí),使用了
sys.exit? 修復(fù)為直接拋出 RuntimeError
? 測(cè)試環(huán)境不再直接退出 Python 進(jìn)程
? 錯(cuò)誤提示更加友好、可捕獲
? CI 與自動(dòng)化測(cè)試穩(wěn)定性提升
在DeepSpeedFP16Config中,新增了對(duì)loss_scale的嚴(yán)格校驗(yàn)邏輯。
新增校驗(yàn)規(guī)則
? 不允許為
bool? 必須可轉(zhuǎn)換為數(shù)值
? 必須是有限值(禁止 inf / -inf / nan)
? 必須≥ 0
?
0表示啟用動(dòng)態(tài) loss scaling
? 覆蓋非法值:
-1、inf、nan、True? 覆蓋合法值:
0、1、2.0、字符串?dāng)?shù)值? 錯(cuò)誤類型時(shí),錯(cuò)誤信息清晰明確
? 避免訓(xùn)練過(guò)程中出現(xiàn)難以排查的數(shù)值異常
? 在配置階段即阻斷錯(cuò)誤輸入
? 提升 FP16 訓(xùn)練的安全性與可維護(hù)性
這是v0.18.8 中技術(shù)含量最高、影響最深遠(yuǎn)的更新之一。
1. 多架構(gòu) dispatch 根因修復(fù) 核心變化
? 移除
CheckArch中對(duì)__CUDA_ARCH__的依賴? 修復(fù)多架構(gòu)構(gòu)建時(shí)的邏輯沖突
? 明確不同架構(gòu)對(duì) fp16 / bf16 的支持范圍
架構(gòu)
fp16
bf16
Sm70
支持
不支持
Sm75
支持
不支持
Sm80+
支持
支持
2. DISPATCH_ARCHTAG 宏邏輯重構(gòu)
? 不再依賴編譯期 GPU_ARCH 條件嵌套
? 運(yùn)行期根據(jù) CC 直接選擇 Sm70 / Sm75 / Sm80
? 不滿足 Tensor Core 條件直接報(bào)錯(cuò)
? 多架構(gòu) CUDA slice 行為更一致
? 解決 Evoformer 在混合 GPU 環(huán)境下的異常構(gòu)建問(wèn)題
? 構(gòu)建邏輯中不再讀取該環(huán)境變量
? 設(shè)置該變量時(shí)僅發(fā)出警告
?真正生效的構(gòu)建控制方式為
TORCH_CUDA_ARCH_LIST
TORCH_CUDA_ARCH_LIST='7.0;8.0'4. Evoformer 構(gòu)建文檔全面更新文檔明確說(shuō)明:
? Evoformer 僅支持 SM ≥ 70
? Tensor Core 為必要條件
? 多架構(gòu)構(gòu)建完全依賴
TORCH_CUDA_ARCH_LIST? 低于 SM70 的目標(biāo)會(huì)被自動(dòng)裁剪
新增單元測(cè)試覆蓋:
? 低于 7.0 的 CC 被過(guò)濾
? +PTX 后綴正確保留
? 不再生成
-DGPU_ARCH編譯參數(shù)?
CheckArch中不再包含__CUDA_ARCH__
? 修正源文件列表中缺失的逗號(hào)
? 修復(fù) CPU op 中對(duì) NPU 判斷邏輯
? 避免 torch_npu 未聲明導(dǎo)致的構(gòu)建失敗
? Ascend NPU 環(huán)境下 Async IO 可正常編譯
? 提升 DeepSpeed 在非 CUDA 平臺(tái)的可用性
? 使用
current_stream()替代default_stream()? 避免梯度歸約時(shí)的數(shù)據(jù)依賴問(wèn)題
? CUDA Stream 同步更安全
? 減少潛在死鎖與性能異常
? 多處
print_rank_0重復(fù) force 參數(shù)修復(fù)? see_memory_usage 行為統(tǒng)一
? 提升多卡訓(xùn)練日志一致性
? 優(yōu)化 optimizer state 初始化前后的內(nèi)存日志
? 保持與 Stage3 行為一致
兩份文件內(nèi)容完全一致,作為DeepSpeed 工作區(qū)級(jí) AI 編碼規(guī)范。
核心規(guī)則包括:
? 提交必須帶 Signed-off-by
? 強(qiáng)制 yapf + flake8
? 禁止無(wú)意義格式化提交
? 新文件必須包含 Apache-2.0 License Header
? 不允許直接 import torch.distributed
? 刪除無(wú)運(yùn)行時(shí)價(jià)值的死代碼
? 注釋強(qiáng)調(diào)“為什么”,而非“做什么”
? 明確 AI 編碼參與項(xiàng)目的行為邊界
? 降低 Review 成本
? 提升長(zhǎng)期代碼質(zhì)量與一致性
?
version.txt從0.18.7 → 0.18.8? 正式標(biāo)志該補(bǔ)丁版本發(fā)布完成
代碼地址:github.com/deepspeedai/DeepSpeed
DeepSpeed v0.18.8 雖然是一個(gè) Patch 級(jí)別更新,但從實(shí)際改動(dòng)內(nèi)容來(lái)看,v0.18.8 已經(jīng)遠(yuǎn)遠(yuǎn)超出了“簡(jiǎn)單修 Bug”的范疇,而是一次針對(duì)穩(wěn)定性、可維護(hù)性與未來(lái)演進(jìn)方向的系統(tǒng)性修正版本
我們相信人工智能為普通人提供了一種“增強(qiáng)工具”,并致力于分享全方位的AI知識(shí)。在這里,您可以找到最新的AI科普文章、工具評(píng)測(cè)、提升效率的秘籍以及行業(yè)洞察。 歡迎關(guān)注“福大大架構(gòu)師每日一題”,發(fā)消息可獲得面試資料,讓AI助力您的未來(lái)發(fā)展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.