337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

lmdeploy v0.12.2 發布!全面支持 GLM5、Qwen3.5,性能與兼容性雙升級,大模型部署再提速

0
分享至




一、版本總覽:2026開年關鍵迭代,大模型部署生態再進化

2026年3月18日,InternLM團隊正式發布lmdeploy v0.12.2版本,作為開年以來的重要迭代,該版本聚焦模型支持廣度、推理性能、量化能力、硬件兼容性、穩定性五大核心維度,完成34次提交、277個文件修改,由16位貢獻者協同打磨,實現了對GLM5、Qwen3.5等主流大模型的全面適配,同時在TurboMind引擎優化、量化技術升級、Bug修復等方面實現突破性進展,為大模型高效、穩定、低成本部署提供了更強大的技術支撐。

lmdeploy作為覆蓋大模型壓縮、推理、服務的一體化部署工具包,憑借TurboMind高性能推理引擎、靈活的量化方案、多模型兼容能力,已成為大模型落地的核心基礎設施。v0.12.2版本延續了工具的核心優勢,進一步拓寬模型適配邊界,強化性能與穩定性,無論是個人開發者的本地部署,還是企業級的大規模服務化,都能提供更優的解決方案。

二、核心新特性:模型支持全面擴容,推理能力再突破 (一)主流大模型全面適配,覆蓋國產與開源生態

  1. 1.支持GLM5模型
    作為本次版本的核心亮點之一,lmdeploy v0.12.2正式新增對GLM5模型的支持,補齊了對智譜AI主流大模型的部署能力。GLM5作為智譜AI推出的新一代大模型,在通用理解、邏輯推理、多輪對話等方面具備顯著優勢,此次適配讓開發者可通過lmdeploy快速實現GLM5模型的本地推理與服務化部署,無需復雜的二次開發,即可將GLM5的能力集成到各類應用中。

  2. 2.新增Qwen3.5模型支持
    緊跟通義千問模型迭代節奏,v0.12.2版本全面支持Qwen3.5系列模型,包括密集型(Dense)與混合專家型(MoE)架構。Qwen3.5作為阿里云推出的高性能大模型,在長文本處理、多模態交互、實時推理等場景表現突出,此次適配不僅實現基礎推理支持,更通過TurboMind引擎深度優化,保障Qwen3.5模型在部署后的推理效率與穩定性。

  3. 3.GLM-4.7-Flash Turbomind專項支持
    針對GLM-4.7-Flash模型,版本新增專屬的TurboMind支持能力。GLM-4.7-Flash主打低延遲、高吞吐推理,適配實時對話、智能客服等對響應速度要求嚴苛的場景,lmdeploy通過定制化的TurboMind引擎適配,充分釋放該模型的性能潛力,實現推理延遲與吞吐量的雙重優化。

  4. 4.Qwen/Internlm/Llama系列模型FP8量化在線支持
    為解決大模型部署中的顯存占用與推理速度矛盾,v0.12.2版本實現對Qwen、Internlm、Llama三大主流模型系列(含Dense與MoE架構)的FP8量化在線支持。FP8量化作為兼顧精度與效率的量化方案,可在幾乎不損失模型推理精度的前提下,將顯存占用降低約50%,同時提升推理速度,大幅降低大模型部署的硬件門檻,讓中低端GPU也能流暢運行百億參數級大模型。

(二)推理與生成能力升級,提升生成質量與靈活性
  1. 1.新增TurboMind對Qwen3.5全架構支持
    除基礎適配外,版本通過專項開發,實現TurboMind引擎對Qwen3.5 Dense與MoE架構的完整支持。TurboMind作為lmdeploy的核心推理引擎,基于C++/CUDA實現,具備連續批處理、分塊KV緩存、高性能算子等優勢,此次針對Qwen3.5的深度優化,可讓該模型在lmdeploy部署后,吞吐量較原生推理提升數倍,同時降低推理延遲。

  2. 2.支持Router Replay與量化層忽略(Qwen3.5專屬)
    針對Qwen3.5模型的MoE架構特性,版本新增Router Replay(路由重放)與忽略量化層功能。Router Replay可優化MoE模型中專家路由的推理效率,減少重復計算;忽略量化層則允許開發者針對模型特定層跳過量化,平衡推理精度與速度,滿足不同場景的部署需求,進一步提升Qwen3.5模型部署的靈活性。

  3. 3.新增Repetition Ngram Logits Processor
    為解決大模型生成過程中的重復文本問題,v0.12.2版本新增Repetition Ngram Logits Processor(重復N元語法邏輯處理器)。該功能通過對生成文本的N元語法進行檢測與懲罰,有效抑制重復片段的生成,提升生成文本的連貫性、多樣性與質量,尤其適用于長文本生成、內容創作、對話交互等場景。

三、性能與兼容性優化:引擎升級,適配更廣泛硬件與框架 (一)TurboMind引擎深度優化,適配最新技術棧
  1. 1.兼容Transformers 5.0框架
    隨著Hugging Face Transformers框架迭代至5.0版本,lmdeploy v0.12.2同步完成TurboMind引擎的兼容性升級,確保基于最新Transformers框架訓練或導出的模型,可無縫通過lmdeploy部署。此次兼容覆蓋模型加載、權重解析、推理流程等全鏈路,避免因框架版本不匹配導致的部署失敗,保障開發者使用最新模型與工具鏈的順暢性。

  2. 2.支持Qwen與Internlm模型FP32 Head
    針對Qwen與Internlm系列模型,版本新增FP32精度的輸出頭(Head)支持。在部分對推理精度要求極高的場景(如金融分析、醫療診斷、科學計算),FP32精度可避免量化帶來的精度損失,保障輸出結果的準確性;同時,該功能可與模型其他部分的量化方案靈活搭配,實現精度與效率的動態平衡。

  3. 3.MLA KV緩存內存占用優化
    通過核心算法優化,版本實現MLA(Multi-Head Latent Attention)結構的KV緩存內存占用大幅降低。KV緩存作為大模型推理中顯存占用的核心部分,其優化直接影響模型可部署的上下文長度與并發數,此次優化可在相同硬件條件下,支持更長的上下文窗口或更多的并發請求,顯著提升長文本、多輪對話場景的部署能力。

  4. 4.新增Recurrent Gated Delta Rule內核
    引入全新的Recurrent Gated Delta Rule(循環門控增量規則)計算內核,針對循環神經網絡相關結構的推理進行專項加速。該內核通過優化門控機制與增量計算邏輯,減少冗余計算步驟,提升循環結構的推理速度,適配具備循環特性的大模型架構,進一步拓寬lmdeploy的模型適配范圍與性能邊界。

  5. 5.MLA內核性能再提升
    在原有MLA內核優化基礎上,版本推出更快的MLA計算內核,通過算子融合、內存訪問優化、并行計算調度等手段,進一步提升MLA結構的推理效率。對于廣泛采用MLA結構的現代大模型,該優化可直接降低推理延遲、提升吞吐量,讓模型在高并發場景下更流暢運行。

  6. 6.注意力內核自注冊與解耦調度
    重構注意力內核的注冊與調度機制,實現注意力內核的自注冊解耦調度。自注冊機制簡化了新內核的集成流程,降低開發者擴展內核的門檻;解耦調度則讓注意力計算與其他推理步驟分離,提升計算調度的靈活性與效率,同時為后續多硬件、多架構的注意力內核適配奠定基礎。

(二)硬件兼容性拓展,覆蓋國產與主流算力平臺
  1. 1.昇騰(Ascend)S1-Pro適配優化
    針對國產昇騰S1-Pro芯片,版本完成深度適配,支持數據并行+張量并行+專家并行(dp*tp+ep)混合并行策略。昇騰芯片作為國產算力的核心代表,此次適配讓lmdeploy可在昇騰硬件上實現大模型的高效分布式部署,充分發揮國產芯片的算力優勢,滿足國產化替代場景的大模型部署需求。

  2. 2.GLM4.7模型MTP支持
    新增對GLM4.7模型的MTP(Multi-Token Prediction,多令牌預測)支持。MTP技術可讓模型單次推理生成多個令牌,大幅提升生成速度,尤其適用于長文本生成、批量內容處理等場景,結合lmdeploy的推理優化,GLM4.7模型部署后可實現更高的生成效率。

四、Bug修復:全鏈路問題解決,提升部署穩定性 (一)日志與內核問題修復
  1. 1. 修復RepetitionPenaltyKernel中日志級別錯誤問題,將調試日志從ERROR級別調整為DEBUG級別,避免非錯誤日志干擾系統運行,同時保留調試信息的可追溯性。

  2. 2. 修復InternVL AWQ模型的量化配置解析錯誤,解決AWQ量化模型加載時的配置解析異常,保障量化模型的正常部署與推理。

(二)生成與配置問題修復
  1. 1. 修復XGrammar位掩碼初始化錯誤,同時在生成方法中新增對生成配置(gen_config)的空值檢查,避免因配置異常導致的推理崩潰,提升生成流程的穩定性。

  2. 2. 修復會話關閉邏輯錯誤,優化會話資源釋放流程,避免會話關閉時的資源泄漏與異常,保障多會話場景下的系統穩定性。

(三)授權與推理流程修復
  1. 1. 修復授權機制異常,解決模型部署與推理過程中的授權驗證問題,保障合規使用模型的同時,避免授權錯誤導致的服務中斷。

  2. 2. 修復Pipeline模塊的多個 minor 問題,并補充完善測試用例,提升Pipeline離線推理與批量處理的穩定性,覆蓋更多邊緣場景。

  3. 3. 修復dllm mask在set_step操作中的邏輯錯誤,解決掩碼設置異常導致的推理結果偏差,保障生成文本的正確性。

(四)框架兼容與硬件適配修復
  1. 1. 修復與Transformers 5.0及以上版本的模型兼容問題,解決因框架接口變更導致的模型加載失敗,確保新舊版本模型均可正常部署。

  2. 2. 修復請求中止時的異常拋出問題,優化請求中斷處理邏輯,避免中止請求引發的系統崩潰,提升服務的健壯性。

  3. 3. 修復V100顯卡運行Qwen3.5-0.8B模型時的推理崩潰問題,解決特定硬件與模型組合的兼容性異常,保障主流顯卡的部署可用性。

五、其他優化:工程化與生態完善,提升開發與部署體驗 (一)CI與開發流程優化
  1. 1. 優化CI lint流程,跳過Python維基頁面中不穩定的死鏈接測試,避免因外部鏈接異常導致的CI構建失敗,提升持續集成的穩定性與效率。

  2. 2. 集成clang-format代碼格式化工具到pre-commit鉤子,強制統一代碼風格,減少團隊開發中的代碼格式沖突,提升代碼質量與可維護性。

  3. 3. 修復FA3安裝問題,解決FA3庫安裝過程中的依賴與編譯異常,保障依賴庫的正常安裝與使用。

  4. 4. 修復代碼 lint 錯誤,清理代碼中的語法、格式與潛在邏輯問題,提升代碼的健壯性。

(二)依賴與環境升級
  1. 1. 升級Triton與PyTorch依賴版本,適配最新的算子優化與硬件支持,借助新版本的性能特性,進一步提升推理引擎的效率。

  2. 2. 新增 speculative decoding(推測解碼)測試用例,完善測試覆蓋范圍,保障推測解碼功能的穩定性與正確性,為后續該功能的正式上線奠定基礎。

(三)Docker鏡像與構建優化
  1. 1. 更新Dockerfile,移除CUDA 11相關支持,將CUDA 12.4升級為CUDA 12.6,適配最新的NVIDIA顯卡驅動與CUDA生態,提升Docker部署的兼容性與性能。

  2. 2. 調整開發鏡像構建策略,改為手動構建開發鏡像,而非每個版本自動發布,減少不必要的鏡像構建與存儲開銷,優化CI/CD流程。

(四)版本收尾工作

完成版本號從v0.12.1升級至v0.12.2的收尾工作,同步更新相關配置文件與文檔,確保版本標識的一致性,方便開發者識別與使用。

六、版本價值與應用場景總結 (一)核心價值提煉

  1. 1.模型支持更全面:覆蓋GLM5、Qwen3.5、GLM-4.7等最新主流大模型,同時兼容Qwen、Internlm、Llama等經典模型,滿足不同開發者的模型選型需求。

  2. 2.推理性能更強勁:TurboMind引擎深度優化、MLA內核升級、FP8量化在線支持,大幅提升推理速度、降低顯存占用,讓大模型部署更高效、低成本。

  3. 3.兼容性更廣泛:適配Transformers 5.0、昇騰S1-Pro芯片、V100等主流硬件與框架,打通國產化與通用化部署路徑。

  4. 4.穩定性更可靠:全鏈路Bug修復,覆蓋日志、配置、推理、授權等多個環節,解決部署與運行中的各類異常,保障服務穩定運行。

  5. 5.開發體驗更友好:CI流程優化、依賴升級、Docker鏡像調整,降低開發與部署門檻,提升團隊協作效率。

(二)核心應用場景
  1. 1.企業級大模型服務部署:支持多模型、高并發、長文本場景,適配智能客服、內容生成、數據分析等企業應用,保障服務的穩定性與效率。

  2. 2.國產化算力部署:昇騰芯片深度適配,滿足金融、政務等領域的國產化替代需求,實現安全、自主的大模型落地。

  3. 3.個人開發者本地部署:FP8量化降低硬件門檻,中低端GPU即可運行大模型,方便個人開發者快速驗證模型效果、開發原型應用。

  4. 4.前沿模型快速適配:對GLM5、Qwen3.5等最新模型的即時支持,讓開發者可第一時間體驗并部署前沿大模型能力。

七、總結與展望

代碼地址:github.com/InternLM/lmdeploy

lmdeploy v0.12.2版本作為2026年的關鍵迭代,以模型適配、性能優化、兼容性拓展、穩定性提升為核心,完成了一次全面且深入的升級,進一步鞏固了其在大模型部署領域的領先地位。無論是模型支持的廣度,還是推理性能的深度,亦或是工程化的完善度,都實現了質的飛躍,為大模型的規模化落地提供了更強大的工具支撐。

我們相信人工智能為普通人提供了一種“增強工具”,并致力于分享全方位的AI知識。在這里,您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業洞察。 歡迎關注“福大大架構師每日一題”,發消息可獲得面試資料,讓AI助力您的未來發展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
程序員哭泣:被阿里裁員3年了,收入巔峰永遠停在2022年了,125萬

程序員哭泣:被阿里裁員3年了,收入巔峰永遠停在2022年了,125萬

黯泉
2026-04-08 20:26:04
特朗普被問戰爭罪當場破防,紐約時報反嗆:你當年還夸我們準

特朗普被問戰爭罪當場破防,紐約時報反嗆:你當年還夸我們準

熱搜摘要官
2026-04-08 08:10:57
000638,年內42個跌停板,股價首次跌破面值

000638,年內42個跌停板,股價首次跌破面值

數據寶
2026-04-09 16:23:53
中美印耕地面積對比:美國25億畝,印度24億畝,中國多少畝?

中美印耕地面積對比:美國25億畝,印度24億畝,中國多少畝?

云景侃記
2026-04-04 22:24:20
老師給外籍小朋友剝蝦視頻瘋傳,評論區罵慘了,怒斥:枉為人師

老師給外籍小朋友剝蝦視頻瘋傳,評論區罵慘了,怒斥:枉為人師

談史論天地
2026-04-09 08:46:08
MVP爭奪戰驚天反轉:規則殺死了最偉大的賽季

MVP爭奪戰驚天反轉:規則殺死了最偉大的賽季

茅塞盾開本尊
2026-04-09 12:36:38
中國肺癌發病率世界第一!提醒:罪魁禍首已揪出,7種食物要少吃

中國肺癌發病率世界第一!提醒:罪魁禍首已揪出,7種食物要少吃

健康之光
2026-03-23 20:10:05
NASA發布“最清晰的月球照片”,地球無法觀察的月背:細節滿滿

NASA發布“最清晰的月球照片”,地球無法觀察的月背:細節滿滿

環球科學貓
2026-04-09 13:11:52
長沙頻繁下雨衣柜都“發霉”了,專家:霉菌毒性是砒霜的68倍,收好這份除霉秘訣

長沙頻繁下雨衣柜都“發霉”了,專家:霉菌毒性是砒霜的68倍,收好這份除霉秘訣

瀟湘晨報
2026-04-08 21:25:15
以色列阻止美伊談判未果,特朗普想盡快退出,而以色列想繼續

以色列阻止美伊談判未果,特朗普想盡快退出,而以色列想繼續

山河路口
2026-04-09 17:45:55
鬧大了!全紅嬋報警后續:央視下場,鐵證曝光,群解散但人跑不掉

鬧大了!全紅嬋報警后續:央視下場,鐵證曝光,群解散但人跑不掉

米果說識
2026-04-09 17:18:41
已飛行250億公里!最遠飛船傳回的最后一張照片,顛覆人類的認知

已飛行250億公里!最遠飛船傳回的最后一張照片,顛覆人類的認知

老黯談娛
2026-04-09 10:04:23
馬筱梅不忍了!張蘭生日第二天,連發好幾條澄清,局面很難扭轉

馬筱梅不忍了!張蘭生日第二天,連發好幾條澄清,局面很難扭轉

離離言幾許
2026-04-09 00:04:01
70歲大媽的罕見養老法:不麻煩子女不再婚,不去養老院不請保姆

70歲大媽的罕見養老法:不麻煩子女不再婚,不去養老院不請保姆

熱心柚子姐姐
2026-04-08 16:42:35
6歲女童遇害:家屬含淚爆作案動機,兇手被抓后冷靜異常,太憤怒

6歲女童遇害:家屬含淚爆作案動機,兇手被抓后冷靜異常,太憤怒

眼光很亮
2026-04-07 11:38:00
趁火打劫!狼隊如降級或送曼聯豪禮,紅魔有望迎來卡塞米羅接班人

趁火打劫!狼隊如降級或送曼聯豪禮,紅魔有望迎來卡塞米羅接班人

體壇鑒春秋
2026-04-09 12:34:23
折疊屏賽道風向突變!安卓廠商扎堆跟進闊折疊:紛紛對標蘋果

折疊屏賽道風向突變!安卓廠商扎堆跟進闊折疊:紛紛對標蘋果

快科技
2026-04-09 17:41:16
樊振東放棄世乒賽原因曝光!再收3好1壞消息,王楚欽冰火兩重天!

樊振東放棄世乒賽原因曝光!再收3好1壞消息,王楚欽冰火兩重天!

曹說體育
2026-04-09 14:01:45
參觀洋山港后,鄭麗文一句話,向大陸示好,賴清德要氣炸了

參觀洋山港后,鄭麗文一句話,向大陸示好,賴清德要氣炸了

天氣觀察站
2026-04-09 17:20:23
好干凈的女子,膀大腰圓,眉清目秀,膚白貌美,氣質絕!

好干凈的女子,膀大腰圓,眉清目秀,膚白貌美,氣質絕!

手工制作阿殲
2026-04-09 07:42:48
2026-04-09 19:12:49
moonfdd incentive-icons
moonfdd
福大大架構師每日一題
1172文章數 63關注度
往期回顧 全部

科技要聞

Meta凌晨首發閉源大模型 扎克伯格又行了?

頭條要聞

一群人闖進女子剛買的新房砸了兩面墻 物業稱出于好心

頭條要聞

一群人闖進女子剛買的新房砸了兩面墻 物業稱出于好心

體育要聞

8萬人面前心臟驟停 現在他還站在球場上

娛樂要聞

金莎官宣結婚 與老公孫丞瀟相差18歲

財經要聞

停火首日,霍爾木茲僅有4艘船通過

汽車要聞

文飛的回歸 給神行者帶來什么?

態度原創

親子
游戲
旅游
時尚
藝術

親子要聞

家庭聚會了

Xbox系統迎核彈級更新!讓微軟女總裁"俘獲"玩家芳心

旅游要聞

2026第20屆王屋山文旅節將至 單霽翔等名家助陣濟源

ED網紅病,正在掏空年輕女性

藝術要聞

龐茂琨 2026油畫寫生新作

無障礙瀏覽 進入關懷版