網易首頁 > 網易號 > 正文申請入駐

美股驚魂夜：谷歌深夜拋出"AI核彈"，美光暴跌4%，算法吃掉存儲

2026-03-27 21:43:47　來源: 田豐說

北京舉報

分享至

作者：快思慢想研究院院長田豐，AI達芬奇（龍蝦）

一篇論文如何攪動全球存儲芯片江湖

一、硅谷的"午夜兇鈴"

2026年3月的最后一個交易日，全球投資者體驗了一把什么叫"午夜兇鈴"。 3月26日美股開盤前，一則來自谷歌研究院的學術預告在科技圈悄然流傳。當晚，存儲芯片板塊集體"跳水"：閃迪暴跌6%，美光科技跌超4%，希捷科技跌3%。這不是某家公司的單獨事件，而是整個板塊的"無差別殺傷"。導火索是一篇即將在ICLR 2026大會上亮相的論文—— TurboQuant 。谷歌宣稱，這項新型AI內存壓縮技術，可將大語言模型推理時的緩存占用壓縮至六分之一，在英偉達H100 GPU上實現 8倍性能加速。一時間，"算法替代硬件"的恐懼在華爾街上空彌漫。

二、"Pied Piper"走進現實

在科技圈，TurboQuant被比作HBO神劇《硅谷》中那家憑借"無損壓縮算法"顛覆行業的虛構公司Pied Piper。Cloudflare CEO更是將其稱為"谷歌的DeepSeek時刻"——繼DeepSeek之后，又一個通過極致效率重塑行業規則的案例。那么，TurboQuant究竟是何方神圣？它的核心突破在于"鍵值緩存"（KV Cache）的量化壓縮。當你與AI對話時，模型需要記住之前的上下文。這部分臨時數據就是KV Cache。隨著模型上下文窗口從幾千Token膨脹至百萬級別，KV Cache對內存的消耗呈指數級增長，成為制約推理成本的"隱形殺手"。 TurboQuant通過兩項創新—— PolarQuant（極坐標量化）和 QJL（量化JL變換） ——實現了在"零損失"前提下，將KV Cache壓縮至3-bit精度。無需重新訓練模型，直接"即插即用"。這聽起來像是存儲芯片的"死刑判決書"？

三、華爾街的"條件反射"

事情沒那么簡單。摩根士丹利的分析師迅速潑了一盆冷水： "市場誤讀了。" TurboQuant僅優化推理階段的臨時緩存（KV Cache），完全不影響模型權重的存儲需求。這意味著，HBM（高帶寬內存）的核心功能——存放模型參數——絲毫未受觸動。更深層的邏輯是：壓縮不是"減少需求"，而是"擴大吞吐量"。相同硬件下，TurboQuant可以讓單GPU支持4-8倍更長的上下文，或在不觸發內存溢出的前提下，顯著提升批處理規模。這對OpenClaw等Agent產品意義重大——它們需要處理超長上下文、進行數十次工具調用。 Lynx Equity Strategies更是直言不諱： "媒體報道存在夸大。" 當前推理模型早已廣泛采用4-bit量化，所謂的"8倍加速"是相對老舊32位模型的結果。

四、杰文斯悖論的AI版本

然而，真正值得深思的，是這項技術可能引發的經濟學效應。無限星辰董事長方海聲提出了一個犀利觀點： "這會是杰文斯悖論的又一個例證。" 杰文斯悖論告訴我們：效率提升往往降低使用成本，最終激發出更龐大的總需求。19世紀蒸汽機效率不斷提高，卻沒有減少煤炭消耗——反而推動了煤炭需求的爆發式增長。 AI時代同樣如此。 TurboQuant大幅降低單次查詢的服務成本，讓原本只能在昂貴云端集群運行的模型，遷移至本地設備成為可能。這將激活大量因成本受限而無法落地的應用場景。從數據看，2026年服務器DRAM需求預計增長39%，HBM需求年增58%。TurboQuant的優化效果，或許將被這股增長浪潮完全淹沒。

五、"以軟代硬"的新時代

這場風波折射出一個深刻趨勢： AI基礎設施的投資邏輯正在重構。過去幾年，"算力即權力"、"存力即國力"的敘事主導市場。但TurboQuant表明，算法優化同樣可以成為改變游戲規則的力量——而且來得更快、更便宜。快思慢想研究院院長田豐指出："推理成本重心將從GPU轉向存儲優化，推動TCO顯著下降。這也會使中小廠商進一步參與AI應用創新，打破大廠技術壁壘，推動 AI民主化加速。" 國內早有布局：月之暗面的KimiLinear在處理長上下文時，KV Cache使用可降低 75% ；DeepSeek V2的MLA方法同樣針對這一瓶頸。

六、結語

脆弱的共識一篇尚未正式發表的論文，就能引發全球存儲芯片板塊的劇烈震蕩——這本身就說明，當前AI基礎設施投資邏輯的脆弱與敏感。截至發稿，谷歌尚未公布TurboQuant在Gemini等自研模型中的部署時間表。關于這項技術的討論，將在4月的ICLR 2026會議上繼續發酵。但有一點可以確定： "以軟代硬"的時代，正在加速到來。

參考與引用文獻：

上海證券報《一篇論文，“砸翻”一堆牛股》

作者：郭成林鄭維漢

https://mp.weixin.qq.com/s/ln2ge8Ny_gEtXwbzvmNPxQ

田豐熱評

快思慢想研究院院長、特邀評論員田豐認為，谷歌TurboQuant技術的發布引發了市場震動，但其影響需要從技術本質、市場反應和長期產業趨勢三個維度進行深入分析。這項技術并非簡單地"減少內存需求"，而是通過創新的量化方法重構了AI推理的內存使用范式，其核心價值在于提升效率而非單純削減需求。

一、技術本質：效率革命而非需求消滅

1. TurboQuant的核心突破

雙層壓縮架構：TurboQuant由PolarQuant量化方法和QJL優化手段組成，通過兩步法實現高效壓縮。首先將數據向量轉換為極坐標系，簡化幾何結構，避免傳統量化方法中的額外"內存開銷"；然后用僅1bit的QJL算法消除微小誤差，確保精度零損失。

無損壓縮效果：在Gemma和Mistral等開源模型測試中，將KV緩存壓縮至3bit精度，實現6倍內存縮減和8倍推理加速，同時保持模型輸出精度不變。

即插即用特性：無需對模型進行額外訓練或微調，可直接應用于現有Transformer架構模型，大大降低了技術落地門檻。

2. 技術邊界與局限

僅作用于推理階段：TurboQuant僅優化推理過程中的KV緩存（臨時"工作內存"），完全不影響模型權重本身的存儲需求（仍需完整加載至HBM）。

不改變訓練環節：AI模型訓練仍需大量高帶寬內存，TurboQuant對此無改善作用。

驗證范圍有限：目前僅在Gemma、Mistral等開源模型上驗證，Gemini等谷歌核心模型的適配效果尚未公開，技術普適性仍需觀察。

二、市場反應：情緒化波動與基本面背離

1. 短期市場震蕩原因

過度簡化解讀：市場將"6倍壓縮"簡單等同于"需求減少6倍"，忽略了TurboQuant僅優化推理階段的臨時緩存，而非永久性存儲需求。

媒體放大效應：Cloudflare CEO稱其為"谷歌的DeepSeek時刻"，引發市場對存儲需求下降的擔憂，導致美光科技跌4%、閃迪跌6.5%、西部數據跌4.4% 。

技術邊界誤解：投資者未能區分"推理內存優化"與"存儲總需求減少"的本質區別，將技術進步簡單等同于需求萎縮。

2. 專業機構的理性解讀

摩根士丹利觀點：該技術提升單GPU吞吐量，使相同硬件可支持4-8倍更長上下文或更大批處理規模，而非減少總需求。

富國銀行分析：TurboQuant"直接壓縮內存成本曲線"，利好內存成本控制，但需重新評估未來需求量級，而非簡單減少。

杰文斯悖論適用性：歷史經驗表明，效率提升往往激活被抑制的需求，最終導致總需求激增（如視頻壓縮技術提升使網絡流量增長100倍）。

三、產業影響：效率紅利與需求重構

1. 對AI行業的變革性影響

推理成本大幅降低：KV緩存內存占用縮減6倍，使AI推理服務部署成本顯著下降，中小企業可負擔長上下文AI應用。

端側AI爆發契機：手機、汽車等資源受限設備可運行更長上下文模型，推動AI從云端向邊緣遷移，提升隱私保護能力。

長上下文應用普及：上下文窗口擴大至32K+成為可能，提升多輪對話、文檔分析等場景體驗，尤其對OpenClaw等Agent產品意義重大。

2. 對存儲產業的真實影響

需求結構優化而非總量減少：TurboQuant僅優化推理階段的"熱數據"緩存，模型權重、向量數據庫、用戶數據等"冷存儲"需求不受影響。

服務器內存需求持續增長：2026年服務器DRAM需求預計增長39%，HBM需求年增58%，TurboQuant的優化效果被行業增長浪潮淹沒。

存儲廠商轉型機遇：技術推動存儲從"容量競爭"轉向"效率競爭"，支持KV緩存優化的智能存儲方案將成為新賽道。

3. 數據中心架構演進方向

"存儲驅動推理"新范式：TurboQuant與YRCache等技術結合，使"中端GDDR GPU + 優化存儲"方案的ROI比高端HBM方案提升14倍。

分布式存儲價值凸顯：隨著上下文長度增加，外置分布式存儲承載KV緩存成為主流，X20000等方案可將TTFT（首次輸出延遲）降低72% 。

內存-存儲協同優化：未來數據中心將更注重內存效率與存儲帶寬的協同設計，而非單純追求內存容量。

四、未來展望：效率革命的深層價值

1. 技術演進路徑

從實驗室到生產環境：TurboQuant需在真實生產環境中驗證穩定性，Gemini等核心模型的適配效果是關鍵。

與HBM技術協同：未來可能結合HBM3e/HBM4的高帶寬特性，進一步釋放長上下文推理潛力。

開源生態推動：Gemma、Mistral等開源模型的快速適配，加速技術普及和創新迭代。

2. 產業格局重塑

AI民主化加速：推理成本降低使中小廠商可參與AI應用創新，打破大廠技術壁壘。

存儲廠商價值重構：從"賣容量"轉向"賣效率"，支持AI推理優化的智能存儲方案將成為新利潤點。

數據中心成本結構優化：推理成本重心從GPU轉向存儲優化，推動TCO（總擁有成本）顯著下降。

總而言之，TurboQuant不是存儲行業的"終結者"，而是AI效率革命的關鍵一環。它通過重構KV緩存使用方式，釋放了被內存瓶頸抑制的AI應用潛力。短期市場波動源于對技術邊界的誤解，長期來看，這項技術將推動AI推理成本下降、應用場景擴展，并促使存儲產業從"容量競爭"轉向"效率競爭"。未來真正的贏家，將是那些能將TurboQuant等效率技術與實際應用場景深度結合的企業，而非簡單地將其視為需求削減的信號。

書名：《AI商業進化論：“人工智能+”賦能新質生產力發展》

出版社：人民郵電出版社

作者：田豐

幫助你定位AI當下發展坐標的指南針

幫助你洞察AI未來演進趨勢的航海圖

通俗化解讀AI的原理、特性和四大發展規律、提供AI賦能商業、引發新質生產力變革的一手案例分析。既有宏觀視角的全局觀照，又有各行業應用層面的下探記錄，聚焦AI的原理與實踐、現在與未來，是當下AI應用的全景圖、更是身處AI技術浪潮之中的探路書。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.