量化大模型，本地部署，效果不打折

2025-11-21 13:53:32　來源: Ai學(xué)習(xí)的老章

北京舉報

分享至

大家好，我是 AI 學(xué)習(xí)的老章

本公眾號介紹過多次：

Unsloth 出圈是 DeepSeek-R1 爆火的時候，它發(fā)布了最小 1.58 位量化版本的 R1，把 DeepSeek-R1 這個非常大的模型（它有 6710 億個參數(shù)，也就是 671B）通過“量化”把原本 720GB 的模型壓縮到只有 131GB 的大小。

Unsloth 秘密武器是動態(tài)量化，核心思路是：對模型的少數(shù)關(guān)鍵層進(jìn)行高質(zhì)量的 4-6bit 量化，而對大部分相對沒那么關(guān)鍵的混合專家層（MoE）進(jìn)行大刀闊斧的 1-2bit 量化。

動態(tài) GGUF 量化技術(shù)

通過動態(tài) GGUF 量化技術(shù)，像 DeepSeek-V3.1 (671B) 這樣的巨型語言模型（LLMs）可以被量化到僅1-bit或3-bit，但在 Aider Polyglot 等高難度基準(zhǔn)測試中，其性能甚至能擊敗像 Claude-4-Opus 這樣的頂尖（SOTA）模型。

這標(biāo)志著模型量化技術(shù)的一個重要突破：極低的比特數(shù)不再意味著性能的大幅犧牲。

Aider Polyglot Benchmarks

Aider Polyglot 是一個衡量 LLMs 在無需人工干預(yù)的情況下，進(jìn)行寫作、編碼、遵循指令和應(yīng)用變更能力的綜合性指標(biāo)。它被認(rèn)為是現(xiàn)實世界應(yīng)用中最具挑戰(zhàn)性和價值的基準(zhǔn)之一，因為它評估的是模型在復(fù)雜任務(wù)中的自主能力。

關(guān)鍵成果速覽

Unsloth 團(tuán)隊在對 DeepSeek-V3.1 進(jìn)行動態(tài)量化后，得出了以下令人振奮的結(jié)果：

1-bit Unsloth 動態(tài) GGUF:
- 體積: 將 DeepSeek-V3.1 從 671GB 壓縮至 192GB（**體積減少 75%**）。
- 性能: 在無思考模式下，性能超越了 GPT-4.1（2025 年 4 月版）、GPT-4.5 和 DeepSeek-V3-0324。
3-bit Unsloth 動態(tài) GGUF:
- 性能: 在“思考模式”下，性能超越了 Claude-4-Opus。
5-bit Unsloth 動態(tài) GGUF:
- 性能: 與 Claude-4-Opus（非思考模式）的性能相當(dāng)。
普遍優(yōu)勢: Unsloth 的動態(tài) GGUF 在所有測試中，其表現(xiàn)始終優(yōu)于其他非 Unsloth 的 imatrix GGUF 模型。

值得注意的是，其他非 Unsloth 的 1-bit 和 2-bit 量化版本要么無法加載，要么產(chǎn)生亂碼，這凸顯了 Unsloth 動態(tài)量化方法的穩(wěn)定性和有效性。

Aider 基準(zhǔn)測試圖表

思考模式 (Thinking Mode)

非思考模式 (Non-Thinking Mode)

Unsloth 動態(tài)量化技術(shù)揭秘

Unsloth 動態(tài)量化的核心思想是“選擇性量化”：

將重要的層保留為 8 或 16-bit，非重要層則壓縮至 1、2、3、4、5 或 6-bit。

這種方法并非對模型的所有層“一視同仁”地進(jìn)行壓縮。通過研究，Unsloth 發(fā)現(xiàn)模型中的某些張量（如attn_k_b）對量化操作極為敏感。將這些關(guān)鍵層保持在較高精度，同時將其他非關(guān)鍵層壓縮到極低位，可以在最小化性能損失的同時，最大化壓縮率。

例如，在 Qwen2-VL-2B-Instruct 案例中，簡單將所有層量化為 4 位會導(dǎo)致模型將下圖的火車誤認(rèn)為海岸場景：

這種策略尤其對 MoE（Mixture of Experts）模型有效，現(xiàn)已成為 MoE 量化的事實標(biāo)準(zhǔn)。

結(jié)論

Unsloth 的動態(tài)量化技術(shù)證明，通過智能的、非均勻的量化策略，我們可以在大幅壓縮模型體積的同時，保持甚至超越 SOTA 模型的性能。這使得在本地消費級硬件上運行高性能的巨型模型成為可能，為 AI 社區(qū)和開發(fā)者帶來了巨大的價值。對于追求本地化、低成本部署高性能模型的用戶來說，Unsloth 的動態(tài)量化模型無疑是當(dāng)前最值得關(guān)注的方案之一。

更多圖表

Gemma 3 & Llama 4 動態(tài)基準(zhǔn)測試

與其他量化方法的對比

動態(tài)量化消融實驗

Pass Rate 1 (非思考模式)

參考：https://docs.unsloth.ai/basics/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot

文末老章薦書

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.