337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

最近很熱門的oMLX,Mac端大模型本地部署新選擇,Claude-Opus-4.6 蒸餾版 Qwen3.5-9B 實測

0
分享至

oMLX 走的是 Apple Silicon + MLX 這條路,Windows 和 NVIDIA 這邊的朋友,這篇先看看熱鬧就好

前文,評論區(qū)好幾個兄弟推薦測試 oMLX:

  • 博主有時間可以研究一下oMLX這個替代 LM Studio,據(jù)說比 lm 快很多倍。

  • 聽說 omlx 比 lm studio 更好用些,占用內(nèi)存更小,有沒有嘗試部署一下?

  • 有大佬做成適合 omlx 跑的 fp8 量化版了,大概 10G,可以試試。同樣機器配置,換用了 oMLX 跑 qwen3.5 9b MLX Q4 版,利落了些,15token 左右吧。雖然回復(fù)慢,但還能用。而 ollama 跑就卡頓的很。

花半天玩了一下,先看大家最關(guān)心的測試情況:

  • oMLX 有很多亮點,UI、菜單欄、管理后臺儀表板,Chat 頁面都很漂亮,底層有 SSD KV 緩存、設(shè)置熱緩存、支持 MCP、一鍵對接各種 AI Coding Agent,OpenAI/Anthropic 兼容接口、針對 Claude Code 優(yōu)化等

  • 單請求生成速度約 20 token/s,峰值顯存/統(tǒng)一內(nèi)存占用約 5.7GB

  • 無法硬跑 Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-4bit,LM Studio 可以強跑,但只能加載,執(zhí)行任務(wù)直接徹底卡死

安裝、配置、使用教程

安裝后直接進(jìn)入 Perference,自定義模型位置,端口號

模型位置后面我把他改到了外接移動硬盤


菜單欄確實方便,一鍵啟停 server、進(jìn)入管理后臺,進(jìn)入聊天界面


先要進(jìn)入模型 tab 然后點下載器


下面的瀏覽模型可以直接看能否支持當(dāng)前主機


下載速度極慢,后來我換成了 modelcope


感覺也有 bug,直接從上面下載,他會默認(rèn)下載整個項目下的不同精度模型,而我只需要 Q4


27B 我也下了


沒有選擇 Jackrong 原版,主要是被 mlx-community 這句話吸引了


但是 27B 最低使得 24 GB 及以上統(tǒng)一內(nèi)存的 Mac 都能運行該模型,且還有足夠空間容納大型上下文窗口,推薦是 32GB

官方測試數(shù)據(jù):

Metric

Result

Model load time

2.4 seconds

Prompt ingestion

86.5 tokens/sec

Generation speed

15.7 tokens/sec

Peak RAM usage

15.6 GB

Bit-rate

4.501 bits/weight

Final size

14 GB (3 shards)

下載過程中進(jìn)入設(shè)置頁


資源管理這里可以控制內(nèi)存占用情況,


下載完畢,可以選擇在設(shè)置 - 模型設(shè)置中啟動,剛開始居然沒找到哪里加載


聊天頁面,很清爽


儀表盤會記錄模型運行情況


現(xiàn)在往下也能把啟動的模型一見接入到 Codex、OpenCode、OpenClaw


它還可以做基準(zhǔn)測試


32K 單請求測試,電腦已經(jīng)有點卡了,TTFT 高的離譜,TPS 只有 11

測試

TTFT (ms)

TPOT (ms/tok)

pp TPS

tg TPS

端到端延遲

吞吐量

峰值內(nèi)存

pp32768/tg128

187.4 tok/s

11.8 tok/s

185.686s

177.2 tok/s

9.06 GB

單請求 + 批處理能力沒敢開高,tg TPS 20.2 tok/s。輸入拉長到 4096 token 后 TTFT 從 4.8s 變成 18.8s,tg TPS 還在 19.8 tok/s,幾乎沒掉,Peak Mem 從 5.66 GB 到 6.40 GB

并發(fā)到 2-4 路時總吞吐提升明顯,但 8 路已經(jīng)接近平臺上限,延遲代價很大。


依舊測試閱讀理解+SVG 代碼生成 + 審美

感覺不穩(wěn)了,需要抽卡


重新嘗試可以識別到四次,svg 寫的很丑


讓其優(yōu)化之后,它的腦回路讓我想笑,它直接設(shè)計了模擬人物動作,完全偏離了主題


27B 無法跑起來

改了 N 多配置都不行,有高手可以出出主意

我要換 32G 的 Mac 了


但是 LM Studio 就可以用 option 按鍵強跑,只是無法執(zhí)行任務(wù),機器卡死


其他再說說

看了官方文檔,再說幾個 oMLX 的亮點,可是我都沒嘗試

1. 連續(xù)批處理

它基于mlx-lmBatchGenerator做并發(fā)處理,首頁給了一組非常直觀的 benchmark,機器是 M3 Ultra 512GB,模型是 Qwen3.5-122B-A10B-4bit:

  • 單請求、8k 上下文時,Prompt 處理速度能到941 tok/s

  • Token 生成速度大約54.0 tok/s

  • 8x連續(xù)批處理下,總吞吐能到190.2 tok/s

  • 對應(yīng)3.36 倍吞吐提升

  • 內(nèi)存占用峰值 73 GB

另一組我很關(guān)注的數(shù)據(jù)是Qwen3-Coder-Next-8bit

  • 8k 上下文時,Prompt 處理速度2009 tok/s

  • 8x批處理總吞吐243.3 tok/s

  • 加速比來到4.14 倍

  • 內(nèi)存占用峰值 85GB

2. Claude Code 優(yōu)化

README 里有一句:

支持在 Claude Code 中使用較小上下文模型的上下文縮放。通過縮放上報的 Token 數(shù)量,讓自動壓縮在合適的時機觸發(fā),同時提供 SSE keep-alive 防止長時間預(yù)填充導(dǎo)致的讀取超時。

官方給出的方向主要有兩個:

  • 通過上下文縮放,讓較小上下文模型在 Claude Code 里更容易觸發(fā)合適的自動壓縮時機

  • 通過 SSE keep-alive,降低長時間 prefill 時讀超時的風(fēng)險

它本身還支持:

  • OpenAI 兼容接口:http://localhost:8000/v1

  • Anthropic 兼容接口:POST /v1/messages

  • 工具調(diào)用

  • MCP 集成

3. 多模型服務(wù)

它在同一服務(wù)里支持:

  • 文本 LLM

  • VLM

  • OCR 模型

  • Embedding

  • Reranker

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
每吃一次,血管就堵一截?醫(yī)生:這5種水果是腦?!凹铀倨鳌?>
    </a>
        <h3>
      <a href=荊醫(yī)生科普
2026-04-02 17:35:43
留給美國時間不多了,伊朗戰(zhàn)爭打完后,世界就只剩一個超級大國了

留給美國時間不多了,伊朗戰(zhàn)爭打完后,世界就只剩一個超級大國了

觸摸史跡
2026-04-02 14:39:03
納指暴跌2% 狂瀉超460點 石油漲13% 破113美元

納指暴跌2% 狂瀉超460點 石油漲13% 破113美元

每日經(jīng)濟新聞
2026-04-02 21:57:09
張雪退出凱越機車同年參保人數(shù)驟降98%

張雪退出凱越機車同年參保人數(shù)驟降98%

雷達(dá)財經(jīng)
2026-04-03 02:00:30
這塊校慶贈禮大石頭真是丟人丟上天了

這塊校慶贈禮大石頭真是丟人丟上天了

不主流講話
2026-04-02 13:59:43
伊朗稱擊中敵軍先進(jìn)戰(zhàn)機

伊朗稱擊中敵軍先進(jìn)戰(zhàn)機

財聯(lián)社
2026-04-03 03:56:29
他賣了40%的“澳洲優(yōu)思益”,共計10萬單,憑什么央視要對他追責(zé)?別呀,他還只是個孩子。

他賣了40%的“澳洲優(yōu)思益”,共計10萬單,憑什么央視要對他追責(zé)?別呀,他還只是個孩子。

問道求真
2026-04-02 08:03:53
又一行業(yè)巨頭暴雷,拖欠數(shù)億貨款,創(chuàng)始人失聯(lián)甩鍋,百姓被坑慘了

又一行業(yè)巨頭暴雷,拖欠數(shù)億貨款,創(chuàng)始人失聯(lián)甩鍋,百姓被坑慘了

卷史
2026-04-02 14:17:39
與輝同行:深表歉意,全額退款

與輝同行:深表歉意,全額退款

魯中晨報
2026-04-02 22:01:03
特朗普放炸橋視頻施壓 伊朗外長說不會投降

特朗普放炸橋視頻施壓 伊朗外長說不會投降

環(huán)球網(wǎng)資訊
2026-04-03 06:13:36
起內(nèi)訌了?伊朗總統(tǒng)反對再這樣打下去,要求革命衛(wèi)隊交出戰(zhàn)時大權(quán)

起內(nèi)訌了?伊朗總統(tǒng)反對再這樣打下去,要求革命衛(wèi)隊交出戰(zhàn)時大權(quán)

知法而形
2026-04-01 18:49:55
央視點名!成本僅20元售價899元,暴利近40倍,網(wǎng)友:就是智商稅

央視點名!成本僅20元售價899元,暴利近40倍,網(wǎng)友:就是智商稅

北緯的咖啡豆
2026-04-02 17:16:49
騰訊凈利潤2200億員工只有11萬 京東員工90萬凈利潤只有200億

騰訊凈利潤2200億員工只有11萬 京東員工90萬凈利潤只有200億

可達(dá)鴨面面觀
2026-04-02 11:31:39
鄭麗文訪問大陸,王金平表態(tài),馬英九前智囊一句話亮了,不一般

鄭麗文訪問大陸,王金平表態(tài),馬英九前智囊一句話亮了,不一般

DS北風(fēng)
2026-04-02 19:38:04
悲催!一程序員失業(yè)離婚,女方提35萬補償分家產(chǎn),要男方貸款支付

悲催!一程序員失業(yè)離婚,女方提35萬補償分家產(chǎn),要男方貸款支付

火山詩話
2026-04-03 06:30:39
自愿?無奈?古力娜扎“空裝”上陣為了啥?

自愿?無奈?古力娜扎“空裝”上陣為了啥?

楓塵余往逝
2026-04-02 15:48:02
云南30歲女子賣淫:一天接客多達(dá)十幾人,每次時長不限價格僅百元

云南30歲女子賣淫:一天接客多達(dá)十幾人,每次時長不限價格僅百元

老貓觀點
2026-04-03 08:13:49
反鎖在臥室打不開門,北京89歲獨居奶奶做了個危險決定:從27層翻窗下爬,被困21層空調(diào)外機護(hù)欄外,還好獲救了

反鎖在臥室打不開門,北京89歲獨居奶奶做了個危險決定:從27層翻窗下爬,被困21層空調(diào)外機護(hù)欄外,還好獲救了

大風(fēng)新聞
2026-04-02 21:08:04
上海交大校慶宣傳片引爭議,校方緊急致歉!

上海交大校慶宣傳片引爭議,校方緊急致歉!

品牌新
2026-04-02 10:40:05
上海中山醫(yī)院心內(nèi)科爆棚?回應(yīng):服務(wù)患者普通號常年不限號,近期換季再迎高峰

上海中山醫(yī)院心內(nèi)科爆棚?回應(yīng):服務(wù)患者普通號常年不限號,近期換季再迎高峰

上觀新聞
2026-04-02 20:49:03
2026-04-03 09:31:00
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3303文章數(shù) 11122關(guān)注度
往期回顧 全部

科技要聞

戰(zhàn)火燒向科技公司!亞馬遜中東云計算中心遭襲

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

頭條要聞

被中國外交部揭底的日本極右翼分子身份披露

體育要聞

邵佳一的改革,從讓每個人踢舒服開始

娛樂要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財經(jīng)要聞

全球石油危機或?qū)⒙?/h3>

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅(qū)小車QQ3 EV

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
旅游
數(shù)碼
軍事航空

藝術(shù)要聞

吳昌碩『扇畫』老辣古拙

房產(chǎn)要聞

巨無霸來了!??诔歉?,突然又爆大動作!

旅游要聞

深圳一網(wǎng)紅公園緊急閉園!一度大批游客涌入,官方:整改15天

數(shù)碼要聞

華為Mate X8折疊屏:8.15英寸巨幕+麒麟9040,最強折疊屏要來了

軍事要聞

伊朗自殺無人機突進(jìn) 逼退林肯號航母

無障礙瀏覽 進(jìn)入關(guān)懷版