大家好,我是 AI 學(xué)習(xí)的老章
本公眾號介紹過多次:
Unsloth 出圈是 DeepSeek-R1 爆火的時候,它發(fā)布了最小 1.58 位量化版本的 R1,把 DeepSeek-R1 這個非常大的模型(它有 6710 億個參數(shù),也就是 671B)通過“量化”把原本 720GB 的模型壓縮到只有 131GB 的大小。![]()
Unsloth 秘密武器是動態(tài)量化,核心思路是:對模型的少數(shù)關(guān)鍵層進(jìn)行高質(zhì)量的 4-6bit 量化,而對大部分相對沒那么關(guān)鍵的混合專家層(MoE)進(jìn)行大刀闊斧的 1-2bit 量化。
動態(tài) GGUF 量化技術(shù)
通過動態(tài) GGUF 量化技術(shù),像 DeepSeek-V3.1 (671B) 這樣的巨型語言模型(LLMs)可以被量化到僅1-bit或3-bit,但在 Aider Polyglot 等高難度基準(zhǔn)測試中,其性能甚至能擊敗像 Claude-4-Opus 這樣的頂尖(SOTA)模型。
這標(biāo)志著模型量化技術(shù)的一個重要突破:極低的比特數(shù)不再意味著性能的大幅犧牲。
![]()
Aider Polyglot Benchmarks
Aider Polyglot 是一個衡量 LLMs 在無需人工干預(yù)的情況下,進(jìn)行寫作、編碼、遵循指令和應(yīng)用變更能力的綜合性指標(biāo)。它被認(rèn)為是現(xiàn)實世界應(yīng)用中最具挑戰(zhàn)性和價值的基準(zhǔn)之一,因為它評估的是模型在復(fù)雜任務(wù)中的自主能力。關(guān)鍵成果速覽
Unsloth 團(tuán)隊在對 DeepSeek-V3.1 進(jìn)行動態(tài)量化后,得出了以下令人振奮的結(jié)果:
1-bit Unsloth 動態(tài) GGUF:
體積: 將 DeepSeek-V3.1 從 671GB 壓縮至 192GB(**體積減少 75%**)。
性能: 在無思考模式下,性能超越了 GPT-4.1(2025 年 4 月版)、GPT-4.5 和 DeepSeek-V3-0324。
3-bit Unsloth 動態(tài) GGUF:
性能: 在“思考模式”下,性能超越了 Claude-4-Opus。
5-bit Unsloth 動態(tài) GGUF:
性能: 與 Claude-4-Opus(非思考模式)的性能相當(dāng)。
普遍優(yōu)勢: Unsloth 的動態(tài) GGUF 在所有測試中,其表現(xiàn)始終優(yōu)于其他非 Unsloth 的 imatrix GGUF 模型。
值得注意的是,其他非 Unsloth 的 1-bit 和 2-bit 量化版本要么無法加載,要么產(chǎn)生亂碼,這凸顯了 Unsloth 動態(tài)量化方法的穩(wěn)定性和有效性。
Aider 基準(zhǔn)測試圖表
思考模式 (Thinking Mode)![]()
非思考模式 (Non-Thinking Mode)![]()
Unsloth 動態(tài)量化技術(shù)揭秘
Unsloth 動態(tài)量化的核心思想是“選擇性量化”:
將重要的層保留為 8 或 16-bit,非重要層則壓縮至 1、2、3、4、5 或 6-bit。
這種方法并非對模型的所有層“一視同仁”地進(jìn)行壓縮。通過研究,Unsloth 發(fā)現(xiàn)模型中的某些張量(如attn_k_b)對量化操作極為敏感。將這些關(guān)鍵層保持在較高精度,同時將其他非關(guān)鍵層壓縮到極低位,可以在最小化性能損失的同時,最大化壓縮率。
例如,在 Qwen2-VL-2B-Instruct 案例中,簡單將所有層量化為 4 位會導(dǎo)致模型將下圖的火車誤認(rèn)為海岸場景:
![]()
![]()
這種策略尤其對 MoE(Mixture of Experts)模型有效,現(xiàn)已成為 MoE 量化的事實標(biāo)準(zhǔn)。
結(jié)論
Unsloth 的動態(tài)量化技術(shù)證明,通過智能的、非均勻的量化策略,我們可以在大幅壓縮模型體積的同時,保持甚至超越 SOTA 模型的性能。這使得在本地消費級硬件上運行高性能的巨型模型成為可能,為 AI 社區(qū)和開發(fā)者帶來了巨大的價值。對于追求本地化、低成本部署高性能模型的用戶來說,Unsloth 的動態(tài)量化模型無疑是當(dāng)前最值得關(guān)注的方案之一。
更多圖表
Gemma 3 & Llama 4 動態(tài)基準(zhǔn)測試![]()
![]()
與其他量化方法的對比![]()
動態(tài)量化消融實驗![]()
Pass Rate 1 (非思考模式)![]()
參考:https://docs.unsloth.ai/basics/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot
文末老章薦書
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.