網易首頁 > 網易號 > 正文申請入駐

內存股集體大跌，原因竟是谷歌這篇一年前的論文

2026-03-26 20:55:03　來源: 機器之心Pro

北京舉報

分享至

編輯｜Panda

昨天，美國內存股迎來一波集體暴跌。據統計，閃迪一度跌 6.5%，希捷科技跌超 5%，西部數據跌超 4%，美光科技跌 4%。

而這一輪內存股暴跌的誘因，卻只是谷歌發布的一篇新博客。這篇博客介紹了谷歌一年前就已經在 arXiv 上公布的一項技術：TurboQuant

論文標題：TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
論文地址：https://arxiv.org/abs/2504.19874

簡單來說，TurboQuant 是一種壓縮算法，可將 LLM KV 緩存內存占用減少至少 6 倍，速度提升高達 8 倍，且精度零損失！

技術博客：https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

這一事件也讓不少投資者和網友吐槽金融市場的非理性表現：

那么，TurboQuant 究竟有何等玄妙？為何發布一年之后還能引發如此巨大的轟動和市場震蕩？

這還得從KV 緩存說起。

KV 緩存簡介

什么是 KV 緩存？簡單來說，當大語言模型 (LLM) 生成文本時，它需要記住之前生成過的每一個詞語的上下文信息。為了做到這一點，模型會將這些歷史信息的鍵（Key）和值（Value）保存在內存中，這就是所謂的 KV 緩存。

這就像是模型在腦子里打的「小抄」。隨著用戶輸入的提示詞越來越長，或者模型的層數與注意力頭數越來越多，這張小抄的體積會呈線性膨脹。

為了讓模型不卡頓，硬件廠商和 AI 公司只能不斷往服務器里塞昂貴的高帶寬內存（HBM）。

Gemini 生成的示意圖

也因此，在此之前，金融市場對內存芯片的需求預期極度樂觀。

TurboQuant：把大象裝進冰箱

大模型要變聰明，向量維度就得往上飆。但傳統的向量壓縮技術（也就是量化）有一個致命弱點：它們往往需要為每一個小數據塊計算并存儲全精度的量化常數。

這就像是為了把一件大衣服塞進行李箱，你非得在旁邊塞進一本厚厚的「折疊說明書」，一來二去，每個數字反而會多出 1 到 2 個 bit 的額外內存開銷，部分抵消了向量量化的初衷。

為了甩掉這個歷史包袱，TurboQuant 搞出了一套極其精妙的兩階段壓縮架構。

第一步：給數據換個「看問題的角度」

第一階段的核心是搞定均方誤差（MSE）的優化。

TurboQuant 會先給高維輸入向量來一個「隨機旋轉」。這一招極其巧妙，它直接簡化了數據的幾何形狀。

在底層的PolarQuant機制視角下，這就像是把傳統直角坐標系下「向東走 3 個街區，再向北走 4 個街區」的繁瑣路徑，一句話轉換成了「以 37 度角，總共走 5 個街區」的極坐標表達。

PolarQuant 充當了高效的壓縮橋梁，將笛卡爾坐標輸入轉換為緊湊的極坐標「速記符」，以便進行存儲和處理。其機制首先將 d 維向量的坐標成對分組，并將其映射到極坐標系中。隨后，系統會將成對的半徑收集起來進行遞歸式的極坐標變換，該過程會持續重復，直到整個數據被提煉為單一的最終半徑以及一組描述性的角度。

這樣一來，信息被清晰地拆分成了代表核心數據強度的「半徑」，以及代表數據方向或含義的「角度」。經過這種旋轉，所有坐標在數學上會呈現出一種集中的 Beta 分布。

在高維空間里，不同坐標之間變得幾乎完全獨立。因為角度的分布規律已經非常明確且高度集中，模型可以直接把數據映射到一個固定的「圓形」網格上，徹底省去了極其耗費算力的數據歸一化步驟。

在這個階段，TurboQuant 投入了絕大部分的壓縮算力，對向量的每個部分單獨應用標準的高質量量化器，死死鎖住原始向量的核心特征，同時把那些累贅的內存開銷削減為零。

第二步： 1 bit 算力帶來的「神級校準」

完成了粗線條的極限壓縮，新的問題又來了：只追求 MSE 最優的量化器，在估算大模型最依賴的「內積」時，會不可避免地產生嚴重偏差。

這時候，TurboQuant 亮出了第二件武器：Quantized Johnson-Lindenstrauss 變換（也就是 QJL ）

TurboQuant 拿出僅有的 1 bit 壓縮空間，專門用來處理第一階段剩下的微小殘差。

QJL 就像一個高精密的數學誤差檢查器。它能夠縮小復雜的高維數據，同時完美保留數據點之間的基本距離和關系。它把最終生成的向量數字全部簡化成了單個符號位（即 +1 或 -1 ）。

這就相當于給模型提供了一套速度極快且零內存開銷的「速記法」。通過將高精度的查詢請求與這種低精度、簡化版的數據進行巧妙平衡，模型最終得以極其精準地計算出注意力得分。

正是這關鍵的 1 bit，成功構建出了一個無偏的內積量化器，徹底抹平了此前積累的計算偏差。

內存價格能下來嗎？

為什么說這項技術足以震動硬件市場？看看它在極限測試中的成績單就一目了然了。

在處理超長上下文的「大海撈針」任務中，TurboQuant 在將 KV 緩存壓縮超過 5 倍的情況下，依然維持了完美的完美召回率。在普通的生成任務中，即使用 3.5 bit 的極致壓縮比，它也能做到絕對的質量無損。

基于 Llama-3.1-8B-Instruct 模型，相對于其它壓縮方法，TurboQuant 在 LongBench 基準測試中展現出了強大的 KV 緩存壓縮性能（括號內標注了具體位寬）。

也已經有工程師成功了為 vLLM 實現了 TurboQuant 并驗證了其效果。他驚喜地分享說：「我那 USB 充電器大小的 HP ZGX 現在可以在 GB10 上容納 4,083,072 個 KV 緩存 token。這可能是 2026 年迄今為止最大的開放式推理突破。」

在另一個實現案例中，研究者在蘋果 MLX 中實現了 TurboQuant ，同樣效果卓絕！

除了不掉智，它還跑得飛快。

由于底層采用了高度適配當今 AI 加速器的設計，在 H100 GPU 上，使用 4 bit 版本的 TurboQuant 計算注意力邏輯的速度，比傳統的 32 bit 無量化版本快了整整 8 倍。

相較于高度優化的 JAX 基準， TurboQuant 展示了在不同位寬級別下，在 KV 緩存內計算注意力 logits 時的大幅性能提升。

使用4位量化時，不同方法在各個維度上的量化時間（以秒為單位）

在向量數據庫和搜索引擎非常看重的最近鄰（NN）搜索領域，它不僅在召回率上輕松擊敗了現有的乘積量化（PQ）技術，還將龐大的索引構建時間壓縮到了幾乎為零。

TurboQuant展現出強勁的檢索性能，在GloVe數據集（d=200）上相對于多種最先進的量化基線，實現了最優的1@k召回率。

這意味著，原本必須要買 8 張高端顯卡才能跑起來的超大模型，現在可能只需要兩三張卡就能流暢運行。

看起來，如果這項技術能夠得到普及應用，AI 公司在推理端的硬件成本或將面臨下降。這種純靠底層算法榨干硬件潛力的技術突破，有望打亂市場對內存芯片爆發式增長的預期。

可以說，谷歌僅憑一小撮數學公式，就硬生生給高漲的硬件算力焦慮降了溫。

然而，話又說回來，內存、GPU、CPU 等等的價格似乎也依然還在繼續漲，參閱《繼 GPU、存儲暴漲之后，AI 最終攻陷 CPU 市場》。

https://x.com/IntuitMachine/status/2036899927465308617

https://x.com/jukan05/status/2036800675158573294

https://x.com/Prince_Canuma/status/2036611007523512397

https://x.com/vllm_project/status/2036989821156270501

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.