每天分享科技熱點!
![]()
上海人工智能實驗室(上海AI實驗室)官方宣布,基于此前的DeepLink混訓(xùn)技術(shù)方案、跨千公里多智算中心長穩(wěn)混訓(xùn)千億參數(shù)大模型,正式推出DeepLink多元算力混合推理加速方案,實現(xiàn)了對華為昇騰、沐曦、阿里平頭哥、壁仞等多款國產(chǎn)GPU芯片的混合調(diào)度與協(xié)同推理。
據(jù)悉,DeepLink混推方案基于統(tǒng)一推理中間件、低時延通信、智能流量路由、策略求解器等原創(chuàng)技術(shù),不僅可對多款芯片混合調(diào)度與協(xié)同推理,性能也大幅提升,對比單一芯片方案,推理時延TTFT最大可優(yōu)化34.5%,推理吞吐最大可提升32%。
![]()
近些年,國產(chǎn)AI GPU如雨后春筍,性能越來越強,但一方面都是各自為戰(zhàn),另一方面大模型推理技術(shù)也需要深入優(yōu)化和提升。
上海AI實驗室在國產(chǎn)GPU異構(gòu)算力中,運用了預(yù)填充-解碼分離(PD分離)策略,驗證了混合芯片高效協(xié)同推理的路徑。
同一數(shù)據(jù)中心內(nèi)不同規(guī)格屬性的GPU芯片組合優(yōu)化使用,可以形成最具性價比的異構(gòu)算力配比。
具體實現(xiàn)上,上海AI實驗室通過四大原創(chuàng)技術(shù)底座,實現(xiàn)了對異構(gòu)算力資源的兼容調(diào)度。
推理中間件(DLInfer):
以標(biāo)準(zhǔn)化融合算子接口打通上層框架與底層硬件壁壘,實現(xiàn)算法模型在多元硬件上的統(tǒng)一推理,降低應(yīng)用門檻。
高速通信庫(DLSlime):
全面兼容各類主流物理連接協(xié)議,實現(xiàn)跨架構(gòu)設(shè)備高速互聯(lián),核心場景帶寬利用率突破97%;具有較強的異步處理能力,可實現(xiàn)計算與通信的重疊。
智能流量路由系統(tǒng)(DLRouter):
支持KVCache感知的請求路由,最大限度減少重復(fù)或重疊請求,節(jié)省計算資源,實現(xiàn)分布式集群負載均衡分配。
策略求解器(DLSolver):
自動獲取異構(gòu)芯片全方位評測數(shù)據(jù),結(jié)合模型配置以及用戶服務(wù)等級目標(biāo)等輸入,匹配最優(yōu)PD分離配置策略,兼顧推理性能與成本。
![]()
![]()
單一算力平臺推理加速方面,可以實現(xiàn)在華為昇騰A2上,針對千卡規(guī)模下的化學(xué)數(shù)據(jù)生成場景,吞吐率提升61.9%;在沐曦曦云C500上,MinerU多模態(tài)生成推理加速60%。
多款國產(chǎn)GPU芯片的深度混合調(diào)度與協(xié)同推理方面,千卡規(guī)模推理集群實測數(shù)據(jù)表明,在多模態(tài)生成、高并發(fā)智能服務(wù)等典型場景下,比單芯片方案推理時延TTFT最大可優(yōu)化34.5%;
在科學(xué)論文處理等長輸入短輸出推理任務(wù)中,推理吞吐可提升32%。
![]()
值得一提的是,除了以上四家,寒武紀、燧原科技、天數(shù)智芯、無問芯穹、商湯科技、中科曙光等也都是上海AI實驗室和DeepLink技術(shù)方案的合作伙伴。
相信會看到越來越多的國產(chǎn)GPU并肩戰(zhàn)斗!
DeepLink官網(wǎng):https://deeplink.org.cn/home
DeepLink Github:https://github.com/DeepLink-org
DLInfer倉庫:https://github.com/DeepLink-org/dlinfer
DLSlime倉庫:https://github.com/DeepLink-org/DLSlime
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.