關于本地部署和量化,我之前寫過不少:
今天聊一套讓我眼前一亮的東西——來自同一個團隊的三件套:JANG + vMLX + MLX Studio,這可能是目前最能打的方案
它們仨是啥關系?
先別被三個名字搞暈了
如果你玩過 PC 端的 GGUF + llama.cpp + Open WebUI,這三個的關系你一眼就懂:
層次
PC 端類比
Mac 端(這套)
量化格式
GGUF
JANG
推理引擎
llama.cpp
vMLX
桌面應用
Open WebUI
MLX Studio
簡單說:JANG 把大模型壓小,vMLX 把它跑快,MLX Studio 給你一個漂亮的界面。三件套,一條龍。
JANG:MLX 的量化救星
先聊最底層的 JANG,官方管自己叫"The GGUF for MLX"
說白了,就是一種混合精度量化方案
普通量化對所有參數一刀切,但模型里的 Attention 層對精度極其敏感,切太狠直接出 NaN(無效數值),模型就廢了![]()
JANG 的聰明之處在于:對不同層給不同精度
Attention 層:保留 5~8 bit(不敢動)
MLP 層:壓到 2~4 bit(這里水分多,使勁壓)
平均額外開銷:只多 0.3 bit
效果有多猛?看這組數據——230B 參數的 MiniMax M2.5 為例:
量化方式
大小
MMLU(200 題)
JANG_2L(2bit 混合)82.5 GB74%
MLX 4-bit
119.8 GB
26.5%
MLX 3-bit
93 GB
24.5%
MLX 2-bit
68 GB
25%
MLX 在各種 bit 下都只有 25% 左右——純隨機猜測水平,模型等于報廢了。JANG 的 2bit 混合版不但活得好好的,還拿了 74%,體積反而更小。
這差距也太離譜了
![]()
更夸張的是 397B 參數的 Qwen3.5:
JANG_1L:112 GB,塞進 128 GB MacBook Pro,MMLU 86.5%
MLX 2-bit / 3-bit:NaN,直接寄
MLX 4-bit:需要約 280 GB,地球上沒幾臺 Mac 裝得下
397B 模型在筆記本上跑起來了——這句話放兩年前說出來怕是要被當成瘋子。
![]()
所有量化好的模型都放在 HuggingFace 的 JANGQ-AI 上,下載即用。想自己量化的話,代碼在 github.com/jjang-ai/jangq,Apache 2.0 開源。
vMLX:100K 上下文快 224 倍![]()
有了好的量化模型,還得有個快引擎
vMLX 就是干這個的
安裝極簡:
pip install vmlx
vmlx serve mlx-community/Qwen3-8B-4bit
啟動后在本地http://0.0.0.0:8000提供 OpenAI + Anthropic 兼容 API,Claude Code、Anthropic SDK 這些客戶端都能直接接
![]()
vMLX 最硬核的賣點是它的五層緩存棧——其他 Mac 端引擎最多有一兩層,vMLX 全給你堆滿了:
前綴緩存:對話中重復的部分只算一次
分頁 KV 緩存:多個對話同時駐留,切換不驅逐
KV 緩存量化:q4/q8 壓縮,節省 4~8 倍內存
持續批處理:最多 256 個并發序列
磁盤緩存:重啟后立即恢復,不用重新算
五層疊加的結果就是,首個 Token 的響應速度碾壓同類:
上下文長度
vMLX
其他引擎
快多少
2.5K
0.05s
0.49s
9.7×
10K
0.08s
6.12s
76×
100K
0.65s
131s
224×
100K 上下文,別的引擎要等兩分多鐘,vMLX 不到一秒。我第一反應是"不可能",但這是實測的 TTFT(Time to First Token),五層緩存疊加確實恐怖。
除了緩存,還有幾個值得一提的特性:
推測解碼:小模型打草稿 + 大模型驗證,提速 20~90%
Mamba / SSM 混合架構支持:Nemotron-H 這些奇葩架構只有 vMLX 能跑
20+ 內置 Agent 工具:文件讀寫、代碼搜索、Shell 執行、Git 操作、網頁搜索——全部本地運行
最后這點很有意思。vMLX 是目前唯一把 Agentic 工具內置到本地引擎里的方案,不用額外配 MCP 服務器,模型直接就能讀文件、執行命令、搜索代碼庫。這個思路比 Ollama、LM Studio 激進得多。
![]()
項目地址:github.com/jjang-ai/vmlx,Apache 2.0 開源。
MLX Studio:不碰命令行也能玩
如果你覺得命令行太折騰,MLX Studio就是給你準備的——vMLX 引擎的完整 GUI 應用,永久免費。
![]()
MLX Studio 主界面——聊天、Agent 工具、圖像生成一體化
該有的全有了:
對話:流式多輪對話、折疊式思維鏈展示(DeepSeek R1、Qwen3、GLM)、拖拽圖片做視覺分析、語音朗讀回復。
圖像生成:5 個生成模型(Flux Schnell/Dev、Z-Image Turbo、Klein 4B/9B)+ 4 個編輯模型(Qwen Image Edit、Flux Kontext、Flux Fill、Flux Klein Edit),全部本地跑,零 API 費用。
模型管理:內置 HuggingFace 瀏覽器一鍵下載、GGUF → MLX 轉換器(支持 JANG 混合精度)、菜單欄快捷切換模型。
API 集成:同時提供 OpenAI 和 Anthropic 端點,支持 Claude Code 等客戶端直接對接。原生 MCP 支持,可以掛外部工具。
![]()
老實說,從功能完整度來看,MLX Studio 比之前我試過的 oMLX 豐富不少,尤其是圖像生成和 Agent 工具這塊,oMLX 是沒有的。不過 oMLX 勝在輕量簡潔,兩者定位不太一樣。
官網:mlx.studio
總結
這三件套解決的核心問題就一個:在 Apple Silicon Mac 上把本地 AI 的體驗拉滿。
JANG解決"裝不下"——128GB Mac 跑 397B 模型,MLX 標準量化做不到
vMLX解決"跑不快"——五層緩存棧,100K 上下文快 224 倍
MLX Studio解決"用不了"——圖文生成、語音對話、Agent 編程,一個 App 搞定
三個項目全部 Apache 2.0 開源,全部免費。
有 Mac 跑本地模型需求的朋友,真的值得試試。
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.