![]()
編輯|Panda
昨天,美國內存股迎來一波集體暴跌。據統計,閃迪一度跌 6.5%,希捷科技跌超 5%,西部數據跌超 4%,美光科技跌 4%。
![]()
而這一輪內存股暴跌的誘因,卻只是谷歌發布的一篇新博客。這篇博客介紹了谷歌一年前就已經在 arXiv 上公布的一項技術:TurboQuant
![]()
- 論文標題:TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
- 論文地址:https://arxiv.org/abs/2504.19874
簡單來說,TurboQuant 是一種壓縮算法,可將 LLM KV 緩存內存占用減少至少 6 倍,速度提升高達 8 倍,且精度零損失!
![]()
技術博客:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
這一事件也讓不少投資者和網友吐槽金融市場的非理性表現:
![]()
![]()
![]()
那么,TurboQuant 究竟有何等玄妙?為何發布一年之后還能引發如此巨大的轟動和市場震蕩?
這還得從KV 緩存說起。
KV 緩存簡介
什么是 KV 緩存?簡單來說,當大語言模型 (LLM) 生成文本時,它需要記住之前生成過的每一個詞語的上下文信息。為了做到這一點,模型會將這些歷史信息的鍵(Key)和值(Value)保存在內存中,這就是所謂的 KV 緩存。
這就像是模型在腦子里打的「小抄」。隨著用戶輸入的提示詞越來越長,或者模型的層數與注意力頭數越來越多,這張小抄的體積會呈線性膨脹。
為了讓模型不卡頓,硬件廠商和 AI 公司只能不斷往服務器里塞昂貴的高帶寬內存(HBM)。
![]()
Gemini 生成的示意圖
也因此,在此之前,金融市場對內存芯片的需求預期極度樂觀。
TurboQuant:把大象裝進冰箱
大模型要變聰明,向量維度就得往上飆。但傳統的向量壓縮技術(也就是量化)有一個致命弱點:它們往往需要為每一個小數據塊計算并存儲全精度的量化常數。
這就像是為了把一件大衣服塞進行李箱,你非得在旁邊塞進一本厚厚的「折疊說明書」,一來二去,每個數字反而會多出 1 到 2 個 bit 的額外內存開銷,部分抵消了向量量化的初衷。
為了甩掉這個歷史包袱,TurboQuant 搞出了一套極其精妙的兩階段壓縮架構。
第一步:給數據換個「看問題的角度」
第一階段的核心是搞定均方誤差(MSE)的優化。
TurboQuant 會先給高維輸入向量來一個「隨機旋轉」。這一招極其巧妙,它直接簡化了數據的幾何形狀。
在底層的PolarQuant機制視角下,這就像是把傳統直角坐標系下「向東走 3 個街區,再向北走 4 個街區」的繁瑣路徑,一句話轉換成了「以 37 度角,總共走 5 個街區」的極坐標表達。
![]()
PolarQuant 充當了高效的壓縮橋梁,將笛卡爾坐標輸入轉換為緊湊的極坐標「速記符」,以便進行存儲和處理。其機制首先將 d 維向量的坐標成對分組,并將其映射到極坐標系中。隨后,系統會將成對的半徑收集起來進行遞歸式的極坐標變換,該過程會持續重復,直到整個數據被提煉為單一的最終半徑以及一組描述性的角度。
這樣一來,信息被清晰地拆分成了代表核心數據強度的「半徑」,以及代表數據方向或含義的「角度」。經過這種旋轉,所有坐標在數學上會呈現出一種集中的 Beta 分布。
在高維空間里,不同坐標之間變得幾乎完全獨立。因為角度的分布規律已經非常明確且高度集中,模型可以直接把數據映射到一個固定的「圓形」網格上,徹底省去了極其耗費算力的數據歸一化步驟。
在這個階段,TurboQuant 投入了絕大部分的壓縮算力,對向量的每個部分單獨應用標準的高質量量化器,死死鎖住原始向量的核心特征,同時把那些累贅的內存開銷削減為零。
第二步: 1 bit 算力帶來的「神級校準」
完成了粗線條的極限壓縮,新的問題又來了:只追求 MSE 最優的量化器,在估算大模型最依賴的「內積」時,會不可避免地產生嚴重偏差。
這時候,TurboQuant 亮出了第二件武器:Quantized Johnson-Lindenstrauss 變換(也就是 QJL )
TurboQuant 拿出僅有的 1 bit 壓縮空間,專門用來處理第一階段剩下的微小殘差。
QJL 就像一個高精密的數學誤差檢查器。它能夠縮小復雜的高維數據,同時完美保留數據點之間的基本距離和關系。它把最終生成的向量數字全部簡化成了單個符號位(即 +1 或 -1 )。
這就相當于給模型提供了一套速度極快且零內存開銷的「速記法」。通過將高精度的查詢請求與這種低精度、簡化版的數據進行巧妙平衡,模型最終得以極其精準地計算出注意力得分。
正是這關鍵的 1 bit,成功構建出了一個無偏的內積量化器,徹底抹平了此前積累的計算偏差。
內存價格能下來嗎?
為什么說這項技術足以震動硬件市場?看看它在極限測試中的成績單就一目了然了。
在處理超長上下文的「大海撈針」任務中,TurboQuant 在將 KV 緩存壓縮超過 5 倍的情況下,依然維持了完美的完美召回率。在普通的生成任務中,即使用 3.5 bit 的極致壓縮比,它也能做到絕對的質量無損。
![]()
基于 Llama-3.1-8B-Instruct 模型,相對于其它壓縮方法,TurboQuant 在 LongBench 基準測試中展現出了強大的 KV 緩存壓縮性能(括號內標注了具體位寬)。
也已經有工程師成功了為 vLLM 實現了 TurboQuant 并驗證了其效果。他驚喜地分享說:「我那 USB 充電器大小的 HP ZGX 現在可以在 GB10 上容納 4,083,072 個 KV 緩存 token。這可能是 2026 年迄今為止最大的開放式推理突破。」
![]()
在另一個實現案例中,研究者在蘋果 MLX 中實現了 TurboQuant ,同樣效果卓絕!
![]()
除了不掉智,它還跑得飛快。
由于底層采用了高度適配當今 AI 加速器的設計,在 H100 GPU 上,使用 4 bit 版本的 TurboQuant 計算注意力邏輯的速度,比傳統的 32 bit 無量化版本快了整整 8 倍。
![]()
相較于高度優化的 JAX 基準, TurboQuant 展示了在不同位寬級別下,在 KV 緩存內計算注意力 logits 時的大幅性能提升。
![]()
使用4位量化時,不同方法在各個維度上的量化時間(以秒為單位)
在向量數據庫和搜索引擎非常看重的最近鄰(NN)搜索領域,它不僅在召回率上輕松擊敗了現有的乘積量化(PQ)技術,還將龐大的索引構建時間壓縮到了幾乎為零。
![]()
TurboQuant展現出強勁的檢索性能,在GloVe數據集(d=200)上相對于多種最先進的量化基線,實現了最優的1@k召回率。
這意味著,原本必須要買 8 張高端顯卡才能跑起來的超大模型,現在可能只需要兩三張卡就能流暢運行。
看起來,如果這項技術能夠得到普及應用,AI 公司在推理端的硬件成本或將面臨下降。這種純靠底層算法榨干硬件潛力的技術突破,有望打亂市場對內存芯片爆發式增長的預期。
可以說,谷歌僅憑一小撮數學公式,就硬生生給高漲的硬件算力焦慮降了溫。
然而,話又說回來,內存、GPU、CPU 等等的價格似乎也依然還在繼續漲,參閱《繼 GPU、存儲暴漲之后,AI 最終攻陷 CPU 市場》。
https://x.com/IntuitMachine/status/2036899927465308617
https://x.com/jukan05/status/2036800675158573294
https://x.com/Prince_Canuma/status/2036611007523512397
https://x.com/vllm_project/status/2036989821156270501
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.