夢晨 發自 凹非寺量子位 | 公眾號 QbitAI
學術會議ICLR,居然和美光和西部數據大跌扯上關系了?
兩家存儲芯片巨頭股價大跌,沒有財報暴雷,沒有供應鏈斷裂,只是谷歌展示了一篇即將在ICLR 2026正式亮相的論文。
![]()
谷歌研究院推出TurboQuant壓縮算法,把AI推理過程中最吃內存的KV cache壓縮至少6倍,精度零損失
市場的解讀簡單粗暴,長上下文AI推理以后不需要那么多內存了,利空內存。
![]()
網友紛紛表示,這不就是美劇《硅谷》里的Pied Paper?
![]()
Pied Piper是2014年開播的HBO經典美劇《硅谷》里的虛構創業公司,核心技術就是一種“近乎無損的極限壓縮算法”。
2026年,類似的算法在現實世界居然成真了。
KVCache量化到3 bit
要理解TurboQuant為什么重要,先得理解它解決的是什么問題。
AI大模型推理時處理過的信息會臨時存在KV Cache,方便后續快速調用,不用每次從頭算起。
問題是隨著上下文窗口越來越長,內存消耗急劇膨脹。KV cache正在成為AI推理的核心瓶頸之一。
![]()
傳統的解決思路是向量量化,把高精度數據壓成低精度表示。
但尷尬的是,大部分量化方法本身也需要存儲額外的“量化常數”,每個數字要多占1到2個bit。
TurboQuant用兩個改動把這個額外開銷干到了零。
PolarQuant(極坐標量化):
不用傳統的X、Y、Z坐標描述數據,轉而用極坐標”距離+角度”。
谷歌團隊發現,轉換后角度的分布非常集中且可預測,根本不需要額外存儲歸一化常數。
就像把“往東走3個路口,往北走4個路口”壓縮成”朝37度方向走5個路口”。
信息量不變,描述更緊湊,還省掉了坐標系本身的開銷。
![]()
QJL(量化JL變換):
把高維數據投影后壓縮成+1或-1的符號位,完全不需要額外內存。TurboQuant用它來消除PolarQuant壓縮后殘留的微小誤差。
![]()
兩者組合后PolarQuant先用大部分bit容量捕捉數據的主要信息,QJL再用1個bit做殘差修正。
最終實現3-bit量化,無需任何訓練或微調,精度零損失。
8倍加速,Benchmark全線拉滿
谷歌團隊在Gemma和Mistral等開源模型上,跑了主流長上下文基準測試,覆蓋問答、代碼生成、摘要等多種任務。
在“大海撈針”任務上,TurboQuant在所有測試中拿下完美分數,同時KV cache內存占用縮小了至少6倍。
PolarQuant單獨使用,精度也幾乎無損。
![]()
速度提升同樣顯著。在英偉達H100 GPU上,4-bit TurboQuant計算注意力分數的速度,比32-bit未量化版本快了8倍。
不只是省內存,還更快了。
在向量搜索領域,TurboQuant同樣超越了現有最優量化方法的召回率,而且不需要針對具體數據集做調優,也不依賴低效的大碼本。
![]()
AI內存的DeepSeek時刻?
Cloudflare CEO評價“這是谷歌的DeepSeek時刻”。
他認為DeepSeek證明了用更少的資源也能訓出頂尖模型。
TurboQuant的方向類似,用更少的內存,也能跑同樣質量的推理。
![]()
谷歌表示,TurboQuant除了可以用在Gemini等大模型上,同時還能大幅提升語義搜索的效率,讓谷歌級別的萬億級向量索引查詢更快、成本更低。
不過TurboQuant目前還只是一個實驗室成果,尚未大規模部署。
更關鍵的是,它只解決推理階段的內存問題。而AI訓練環節完全不受影響。
論文地址:
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
[1]https://x.com/eastdakota/status/2036827179150168182?s=20
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.