337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

三大推理框架vLLM、llama.cpp、MLX 全部跟進!!!

0
分享至

本文是續(xù)集,看下主流推理框架跟進了情況

全面開花:誰在做,做到了什么程度?

先給一張全景圖,讓你 30 秒掌握當(dāng)前進展:

框架

平臺

狀態(tài)

核心亮點

oMLX

Apple Silicon

? 已發(fā)布(v0.2.21)

128K 上下文 KV 省 79%,一鍵開啟

mlx-vlm

Apple Silicon

PR 進行中

Metal kernel 實現(xiàn),解碼速度逼近全精度

llama.cpp

全平臺

實驗中

已有可編譯分支,社區(qū)在推進

vLLM

CUDA

方案已出

完整 6 步集成計劃,等 PR


oMLX:Mac 用戶已經(jīng)可以用了

這是目前進度最快的——oMLX v0.2.21 已經(jīng)把 TurboQuant KV Cache 作為實驗功能正式發(fā)布了


oMLX TurboQuant KV Cache 功能界面

先簡單說說 oMLX 是什么:這是一個專為 Mac 優(yōu)化的本地 LLM 推理服務(wù)器,支持菜單欄管理、連續(xù)批處理、熱/冷兩級 KV Cache(內(nèi)存+SSD),還有漂亮的 Admin Dashboard。用 Homebrew 裝完就能跑,OpenAI API 兼容,Claude Code、OpenCode 都能直接對接。

更具體介紹請看:

TurboQuant 在 oMLX 里的實現(xiàn)思路很巧妙:

Prefill 階段完全用 fp16,零質(zhì)量損失。第一個 decode token 生成時,才把累積的 KV Cache 量化成 3-bit 或 4-bit 的 codebook 索引。Decode 注意力用的是一個 fused 兩遍 Flash Attention Metal kernel,直接從 packed 索引讀取——不需要反量化,不需要 fp16 中間張量。

這個設(shè)計太聰明了,Prefill 不碰你的精度,decode 階段才壓縮,而且 kernel 直接操作壓縮后的數(shù)據(jù),不走解壓再算的老路。

實測大海撈針(Qwen3.5-35B-A3B,3-bit TurboQuant):

上下文長度

Baseline

TurboQuant

KV 內(nèi)存節(jié)省

32K

735MB → 195MB(省 73%)

64K

1407MB → 327MB(省 77%)

128K

2749MB → 589MB(省 79%)

128K 上下文,KV Cache 從 2.7GB 壓到 589MB,質(zhì)量零損失。

對于 Mac 用戶來說,這意味著你的機器一下子能裝下更長的上下文了。

速度方面也很穩(wěn):

模型

Prefill 速度

Decode 速度

Qwen3.5-35B-A3B

fp16 的 95%

fp16 的 87%

Qwen3.5-27B

fp16 的 97%

fp16 的 95%

用起來也簡單——Admin UI → 模型設(shè)置 → 實驗功能 → 打開 TurboQuant KV Cache 開關(guān),完事。

# 安裝 oMLX
brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx


# 啟動服務(wù)
brew services start omlx

順便提一句,這個版本還帶了 **oQ+**——在 oQ 的混合精度量化基礎(chǔ)上加了 GPTQ 權(quán)重優(yōu)化。對 MoE 模型做了批處理算法加速,Qwen3.5-35B-A3B(256 experts × 40 layers)6 分鐘搞定,比順序處理快 15 倍。

mlx-vlm:Metal Kernel 正在逼近全精度

mlx-vlm 的作者 Blaizzy 在 PR [1] 里提交了一套完整的 TurboQuant Metal kernel 實現(xiàn)。

這個 PR 一共提了 5 個 commit,逐步構(gòu)建了完整的 TurboQuant 推理鏈路:

基礎(chǔ) kernel:

  • _mse_score_kernel—— MSE 評分

  • _pack_lowbit_kernel/_unpack_lowbit_kernel—— 低位打包/解包

  • _qjl_score_kernel—— QJL 1-bit 殘差糾偏

  • _prod_score_kernel—— 內(nèi)積計算

多頭優(yōu)化 kernel:

  • _prod_score_multi_kernel—— 多頭批處理

  • _mse_weighted_rot_multi_kernel—— 加權(quán)旋轉(zhuǎn)多頭處理

  • _prod_score_repeat_kernel—— 重復(fù)模式優(yōu)化

4-bit PolarQuant 路徑:

  • _polar_prod_score_kernel—— 極坐標內(nèi)積

  • _polar_turbo_score_repeat_kernel—— 極坐標重復(fù)模式

同時scaled_dot_product_attention函數(shù)也做了適配,針對單 query 輸入走 TurboQuant 快速解碼路徑。

從已知數(shù)據(jù)看,MLX TurboQuant kernel 的解碼速度已經(jīng)追到全精度的 **70-85%**,還在繼續(xù)優(yōu)化。這個 PR 合進去之后,所有用 mlx-vlm 的項目都能直接受益。

llama.cpp:Issue 已開,社區(qū)在推

llama.cpp 這邊,Issue [2] 已經(jīng)有人開了 feature request。

更值得關(guān)注的是,開發(fā)者 @mudler 已經(jīng)在動手了——他 fork 了一個 feat/turbo-quant 分支[3],目前已經(jīng)能編譯和啟動,正在評估效果。

llama.cpp 一旦正式支持 TurboQuant,影響面是最大的。

因為 llama.cpp 是目前本地部署生態(tài)的基石——Ollama、LM Studio、GPT4All 等等一大堆上層應(yīng)用都依賴它。

llama.cpp 支持了,意味著整個本地部署生態(tài)都支持了。

vLLM:方案最詳細,等 PR

vLLM 這邊開的 Issue [4] 信息量最大,直接給出了一份 6 步集成方案:

  1. 擴展 Cache 配置—— 在CacheDType里加"turboquant"

  2. 創(chuàng)建 TurboQuantConfig 類—— 用@register_quantization_config裝飾器

  3. 實現(xiàn) KV Cache Method—— 繼承BaseKVCacheMethod,注冊 codebook 參數(shù)

  4. 更新量化檢測—— 讓is_quantized_kv_cache()識別 TurboQuant

  5. 實現(xiàn) CUDA/Triton Kernel—— 編碼 kernel(量化存儲)+ 解碼 kernel(注意力計算前還原)

  6. 內(nèi)存管理更新—— 適配 codebook 額外開銷和可變壓縮率

這個 Issue 寫得像一份小型技術(shù)設(shè)計文檔,給后來接手的開發(fā)者鋪好了路。

對于跑云端推理的場景,vLLM + TurboQuant 的組合會非常有沖擊力——4-5 倍 KV Cache 壓縮,意味著同樣的 H100 能撐更多并發(fā)、更長上下文。

2026 年的本地 AI 體驗,會因為 TurboQuant 而躍遷一個檔次。我很期待。

.cpp

制作不易,如果這篇文章覺得對你有用,可否點個關(guān)注。給我個三連擊:點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個 ,謝謝你看我的文章,我們下篇再見!

參考資料

PR : https://github.com/Blaizzy/mlx-vlm/pull/858

Issue : https://github.com/ggml-org/llama.cpp/issues/20977

feat/turbo-quant 分支: https://github.com/mudler/llama.cpp/tree/feat/turbo-quant

Issue : https://github.com/vllm-project/vllm/issues/38171

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“生娃率”持續(xù)走低,廈門教授給出建議:不生孩子就下調(diào)養(yǎng)老金

“生娃率”持續(xù)走低,廈門教授給出建議:不生孩子就下調(diào)養(yǎng)老金

大果小果媽媽
2026-04-02 13:16:39
俄軍高級將領(lǐng)墜機身亡,6名總部軍官同時遇難

俄軍高級將領(lǐng)墜機身亡,6名總部軍官同時遇難

桂系007
2026-04-02 23:42:01
送火箭鎖定季后賽!黃蜂逆轉(zhuǎn)太陽 克努佩爾261三分創(chuàng)隊史紀錄

送火箭鎖定季后賽!黃蜂逆轉(zhuǎn)太陽 克努佩爾261三分創(chuàng)隊史紀錄

醉臥浮生
2026-04-03 09:20:42
震撼!網(wǎng)傳火葬場一個月燒出醫(yī)用金屬假體堆成小山,大多是鈦合金

震撼!網(wǎng)傳火葬場一個月燒出醫(yī)用金屬假體堆成小山,大多是鈦合金

火山詩話
2026-04-03 07:53:17
張水華第四個代言官宣!50天狂簽4家,收入登頂跑圈,公司已注冊!

張水華第四個代言官宣!50天狂簽4家,收入登頂跑圈,公司已注冊!

馬拉松跑步健身
2026-04-02 22:10:07
張雪退出凱越機車同年參保人數(shù)驟降98%

張雪退出凱越機車同年參保人數(shù)驟降98%

雷達財經(jīng)
2026-04-03 02:00:30
反鎖在臥室打不開門,北京89歲獨居奶奶做了個危險決定:從27層翻窗下爬,被困21層空調(diào)外機護欄外,還好獲救了

反鎖在臥室打不開門,北京89歲獨居奶奶做了個危險決定:從27層翻窗下爬,被困21層空調(diào)外機護欄外,還好獲救了

大風(fēng)新聞
2026-04-02 21:08:04
哀悼,阿里巴巴一員工突發(fā)心源性休克搶救無效去世

哀悼,阿里巴巴一員工突發(fā)心源性休克搶救無效去世

記錄劉杰
2026-04-03 07:21:57
法塔赫阿里扎德,身亡

法塔赫阿里扎德,身亡

魯中晨報
2026-04-03 07:05:12
杜月笙面館吃飯,一伙地痞流氓找他要保護費,杜月笙:嫌命長嗎?

杜月笙面館吃飯,一伙地痞流氓找他要保護費,杜月笙:嫌命長嗎?

千秋文化
2026-04-01 20:35:51
離婚多年,前兒媳發(fā)現(xiàn)名字赫然刻上婆婆墓碑,女子怒而起訴要求除名!

離婚多年,前兒媳發(fā)現(xiàn)名字赫然刻上婆婆墓碑,女子怒而起訴要求除名!

極目新聞
2026-04-03 08:32:51
這是鞏俐年輕時的劇照,張藝謀導(dǎo)演,特別真實的,很貼近生活。

這是鞏俐年輕時的劇照,張藝謀導(dǎo)演,特別真實的,很貼近生活。

手工制作阿殲
2026-04-03 01:59:04
“看站姿就不像當(dāng)過兵的!”家長炫耀特種兵兒子,敗露后慘遭打臉

“看站姿就不像當(dāng)過兵的!”家長炫耀特種兵兒子,敗露后慘遭打臉

妍妍教育日記
2026-04-02 12:29:05
從四大價值奔赴 看蒙牛高質(zhì)量發(fā)展方法論

從四大價值奔赴 看蒙牛高質(zhì)量發(fā)展方法論

銠財
2026-04-02 17:13:42
這個新瓜,把人惡心吐了!

這個新瓜,把人惡心吐了!

八卦南風(fēng)
2026-04-01 15:48:25
伊朗找到好辦法:“每暗殺一次就摧毀一家美國公司”

伊朗找到好辦法:“每暗殺一次就摧毀一家美國公司”

世家寶
2026-04-02 16:30:53
2女3狗拒付4000車費后續(xù):全網(wǎng)出名,同事認出小區(qū)曝光,警方介入

2女3狗拒付4000車費后續(xù):全網(wǎng)出名,同事認出小區(qū)曝光,警方介入

離離言幾許
2026-04-02 15:41:08
伊朗標志性大橋遭襲

伊朗標志性大橋遭襲

財聯(lián)社
2026-04-02 22:45:10
每吃一次,血管就堵一截?醫(yī)生:這5種水果是腦梗“加速器”

每吃一次,血管就堵一截?醫(yī)生:這5種水果是腦梗“加速器”

荊醫(yī)生科普
2026-04-02 17:35:43
又要打,又想跑,美國陷入泥潭

又要打,又想跑,美國陷入泥潭

南風(fēng)窗
2026-04-02 14:01:50
2026-04-03 11:07:00
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3304文章數(shù) 11123關(guān)注度
往期回顧 全部

科技要聞

SpaceX沖刺2萬億美元估值,馬斯克野心太大

頭條要聞

鄭麗文頂住壓力毅然訪陸 洪秀柱表態(tài)發(fā)文力挺

頭條要聞

鄭麗文頂住壓力毅然訪陸 洪秀柱表態(tài)發(fā)文力挺

體育要聞

沖擊世界杯失敗,80歲老帥一氣之下病倒了

娛樂要聞

田亮一家新年全家福!森碟變清純少女

財經(jīng)要聞

全球石油危機或?qū)⒙?/h3>

汽車要聞

大眾嚴選 何懼"定終身"

態(tài)度原創(chuàng)

健康
教育
時尚
本地
軍事航空

干細胞抗衰4大誤區(qū),90%的人都中招

教育要聞

#小學(xué)初中嚴禁設(shè)重點班實驗班 【教育部:#全面推進義務(wù)教育均衡編班 】今天,教育部發(fā)布通知,啟動實施...

為什么“這個顏色”成為今年頂流?這樣穿好看又治愈

本地新聞

從學(xué)徒到世界冠軍,為什么說張雪的底氣在重慶?

軍事要聞

伊朗自殺無人機突進 逼退林肯號航母

無障礙瀏覽 進入關(guān)懷版