337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

內存股集體大跌,原因竟是谷歌這篇一年前的論文

0
分享至



編輯|Panda

昨天,美國內存股迎來一波集體暴跌。據統計,閃迪一度跌 6.5%,希捷科技跌超 5%,西部數據跌超 4%,美光科技跌 4%。



而這一輪內存股暴跌的誘因,卻只是谷歌發布的一篇新博客。這篇博客介紹了谷歌一年前就已經在 arXiv 上公布的一項技術:TurboQuant



  • 論文標題:TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
  • 論文地址:https://arxiv.org/abs/2504.19874

簡單來說,TurboQuant 是一種壓縮算法,可將 LLM KV 緩存內存占用減少至少 6 倍,速度提升高達 8 倍,且精度零損失!



技術博客:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

這一事件也讓不少投資者和網友吐槽金融市場的非理性表現:







那么,TurboQuant 究竟有何等玄妙?為何發布一年之后還能引發如此巨大的轟動和市場震蕩?

這還得從KV 緩存說起。

KV 緩存簡介

什么是 KV 緩存?簡單來說,當大語言模型 (LLM) 生成文本時,它需要記住之前生成過的每一個詞語的上下文信息。為了做到這一點,模型會將這些歷史信息的鍵(Key)和值(Value)保存在內存中,這就是所謂的 KV 緩存。

這就像是模型在腦子里打的「小抄」。隨著用戶輸入的提示詞越來越長,或者模型的層數與注意力頭數越來越多,這張小抄的體積會呈線性膨脹。

為了讓模型不卡頓,硬件廠商和 AI 公司只能不斷往服務器里塞昂貴的高帶寬內存(HBM)。



Gemini 生成的示意圖

也因此,在此之前,金融市場對內存芯片的需求預期極度樂觀。

TurboQuant:把大象裝進冰箱

大模型要變聰明,向量維度就得往上飆。但傳統的向量壓縮技術(也就是量化)有一個致命弱點:它們往往需要為每一個小數據塊計算并存儲全精度的量化常數。

這就像是為了把一件大衣服塞進行李箱,你非得在旁邊塞進一本厚厚的「折疊說明書」,一來二去,每個數字反而會多出 1 到 2 個 bit 的額外內存開銷,部分抵消了向量量化的初衷。

為了甩掉這個歷史包袱,TurboQuant 搞出了一套極其精妙的兩階段壓縮架構。

第一步:給數據換個「看問題的角度」

第一階段的核心是搞定均方誤差(MSE)的優化。

TurboQuant 會先給高維輸入向量來一個「隨機旋轉」。這一招極其巧妙,它直接簡化了數據的幾何形狀。

在底層的PolarQuant機制視角下,這就像是把傳統直角坐標系下「向東走 3 個街區,再向北走 4 個街區」的繁瑣路徑,一句話轉換成了「以 37 度角,總共走 5 個街區」的極坐標表達。



PolarQuant 充當了高效的壓縮橋梁,將笛卡爾坐標輸入轉換為緊湊的極坐標「速記符」,以便進行存儲和處理。其機制首先將 d 維向量的坐標成對分組,并將其映射到極坐標系中。隨后,系統會將成對的半徑收集起來進行遞歸式的極坐標變換,該過程會持續重復,直到整個數據被提煉為單一的最終半徑以及一組描述性的角度。

這樣一來,信息被清晰地拆分成了代表核心數據強度的「半徑」,以及代表數據方向或含義的「角度」。經過這種旋轉,所有坐標在數學上會呈現出一種集中的 Beta 分布。

在高維空間里,不同坐標之間變得幾乎完全獨立。因為角度的分布規律已經非常明確且高度集中,模型可以直接把數據映射到一個固定的「圓形」網格上,徹底省去了極其耗費算力的數據歸一化步驟。

在這個階段,TurboQuant 投入了絕大部分的壓縮算力,對向量的每個部分單獨應用標準的高質量量化器,死死鎖住原始向量的核心特征,同時把那些累贅的內存開銷削減為零。

第二步: 1 bit 算力帶來的「神級校準」

完成了粗線條的極限壓縮,新的問題又來了:只追求 MSE 最優的量化器,在估算大模型最依賴的「內積」時,會不可避免地產生嚴重偏差。

這時候,TurboQuant 亮出了第二件武器:Quantized Johnson-Lindenstrauss 變換(也就是 QJL )

TurboQuant 拿出僅有的 1 bit 壓縮空間,專門用來處理第一階段剩下的微小殘差。

QJL 就像一個高精密的數學誤差檢查器。它能夠縮小復雜的高維數據,同時完美保留數據點之間的基本距離和關系。它把最終生成的向量數字全部簡化成了單個符號位(即 +1 或 -1 )。

這就相當于給模型提供了一套速度極快且零內存開銷的「速記法」。通過將高精度的查詢請求與這種低精度、簡化版的數據進行巧妙平衡,模型最終得以極其精準地計算出注意力得分。

正是這關鍵的 1 bit,成功構建出了一個無偏的內積量化器,徹底抹平了此前積累的計算偏差。

內存價格能下來嗎?

為什么說這項技術足以震動硬件市場?看看它在極限測試中的成績單就一目了然了。

在處理超長上下文的「大海撈針」任務中,TurboQuant 在將 KV 緩存壓縮超過 5 倍的情況下,依然維持了完美的完美召回率。在普通的生成任務中,即使用 3.5 bit 的極致壓縮比,它也能做到絕對的質量無損。



基于 Llama-3.1-8B-Instruct 模型,相對于其它壓縮方法,TurboQuant 在 LongBench 基準測試中展現出了強大的 KV 緩存壓縮性能(括號內標注了具體位寬)。

也已經有工程師成功了為 vLLM 實現了 TurboQuant 并驗證了其效果。他驚喜地分享說:「我那 USB 充電器大小的 HP ZGX 現在可以在 GB10 上容納 4,083,072 個 KV 緩存 token。這可能是 2026 年迄今為止最大的開放式推理突破。」



在另一個實現案例中,研究者在蘋果 MLX 中實現了 TurboQuant ,同樣效果卓絕!



除了不掉智,它還跑得飛快。

由于底層采用了高度適配當今 AI 加速器的設計,在 H100 GPU 上,使用 4 bit 版本的 TurboQuant 計算注意力邏輯的速度,比傳統的 32 bit 無量化版本快了整整 8 倍。



相較于高度優化的 JAX 基準, TurboQuant 展示了在不同位寬級別下,在 KV 緩存內計算注意力 logits 時的大幅性能提升。



使用4位量化時,不同方法在各個維度上的量化時間(以秒為單位)

在向量數據庫和搜索引擎非常看重的最近鄰(NN)搜索領域,它不僅在召回率上輕松擊敗了現有的乘積量化(PQ)技術,還將龐大的索引構建時間壓縮到了幾乎為零。



TurboQuant展現出強勁的檢索性能,在GloVe數據集(d=200)上相對于多種最先進的量化基線,實現了最優的1@k召回率。

這意味著,原本必須要買 8 張高端顯卡才能跑起來的超大模型,現在可能只需要兩三張卡就能流暢運行。

看起來,如果這項技術能夠得到普及應用,AI 公司在推理端的硬件成本或將面臨下降。這種純靠底層算法榨干硬件潛力的技術突破,有望打亂市場對內存芯片爆發式增長的預期。

可以說,谷歌僅憑一小撮數學公式,就硬生生給高漲的硬件算力焦慮降了溫。

然而,話又說回來,內存、GPU、CPU 等等的價格似乎也依然還在繼續漲,參閱《繼 GPU、存儲暴漲之后,AI 最終攻陷 CPU 市場》。

https://x.com/IntuitMachine/status/2036899927465308617

https://x.com/jukan05/status/2036800675158573294

https://x.com/Prince_Canuma/status/2036611007523512397

https://x.com/vllm_project/status/2036989821156270501

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
張玉寧傳射建功!機警推射破498天國足球荒,5年首次單場傳射

張玉寧傳射建功!機警推射破498天國足球荒,5年首次單場傳射

奧拜爾
2026-03-27 15:27:15
中國博士后遭美方執法人員約談盤問后自殺身亡,中方:敦促美方徹查此案,向受害者家屬和中方做出負責任交代

中國博士后遭美方執法人員約談盤問后自殺身亡,中方:敦促美方徹查此案,向受害者家屬和中方做出負責任交代

每日經濟新聞
2026-03-27 20:24:28
悲催!網傳一男子踩空摔倒死亡,或玩手機引發,原本打算6月結婚

悲催!網傳一男子踩空摔倒死亡,或玩手機引發,原本打算6月結婚

火山詩話
2026-03-27 13:59:41
這是目前為止,我見過腰最細的女生,沒有之一

這是目前為止,我見過腰最細的女生,沒有之一

草莓解說體育
2026-03-03 19:15:05
俄羅斯高校或變征兵室!俄大學生被迫簽署兵役合同

俄羅斯高校或變征兵室!俄大學生被迫簽署兵役合同

項鵬飛
2026-03-26 20:52:07
我今年55了,想用血淚教訓告訴你:不要跟任何人,包括你的父母、子女、枕邊人,分享這4件事

我今年55了,想用血淚教訓告訴你:不要跟任何人,包括你的父母、子女、枕邊人,分享這4件事

東林夕亭
2026-03-27 09:07:57
飆升570%!河南一酒企斷代16年后復出,攪動1800億市場

飆升570%!河南一酒企斷代16年后復出,攪動1800億市場

叮當當科技
2026-03-27 05:47:01
徐靜蕾在洛杉磯的近況,看得人心里五味雜陳。

徐靜蕾在洛杉磯的近況,看得人心里五味雜陳。

南權先生
2026-03-09 15:52:48
瓦良格號送到中國后有多震撼?專家刮掉表面的銹跡:鋼材品質極佳

瓦良格號送到中國后有多震撼?專家刮掉表面的銹跡:鋼材品質極佳

古書記史
2026-01-06 16:31:56
中央連發兩文定調!不出意外的話,一線城市的房價或迎來大變化

中央連發兩文定調!不出意外的話,一線城市的房價或迎來大變化

離離言幾許
2026-03-27 13:47:28
朝鮮兩名高官發動兵變為張成澤報仇,因細節敗露,金正恩一招鎮壓

朝鮮兩名高官發動兵變為張成澤報仇,因細節敗露,金正恩一招鎮壓

阿胡
2024-04-30 11:48:45
人民日報副總編輯公開表達不滿:我困惑很久,不吐不快!

人民日報副總編輯公開表達不滿:我困惑很久,不吐不快!

霹靂炮
2025-12-08 22:03:16
男子自駕游至海南遇美女搭車,同行三天后,他才知道自己逃過死劫

男子自駕游至海南遇美女搭車,同行三天后,他才知道自己逃過死劫

林林故事揭秘
2025-04-10 14:49:38
反轉來了,美國前州長直播爆料:特朗普去年遇刺完全是自導自演!

反轉來了,美國前州長直播爆料:特朗普去年遇刺完全是自導自演!

觸摸史跡
2026-03-27 10:03:34
重溫1999:西方媒體報道的炸館“另一面”,17名軍事顧問遇難?

重溫1999:西方媒體報道的炸館“另一面”,17名軍事顧問遇難?

干史人
2026-02-27 11:00:05
小S長女Elly海邊辣照,這身段誰敢信才20歲?

小S長女Elly海邊辣照,這身段誰敢信才20歲?

娛樂領航家
2026-03-25 23:00:03
現貨黃金價格深夜再度跳水,一度跌逾3%!金價為何“上躥下跳”?

現貨黃金價格深夜再度跳水,一度跌逾3%!金價為何“上躥下跳”?

澎湃新聞
2026-03-27 09:10:27
從“種地”到“慧種地”:中國智慧春耕跑出“加速度”

從“種地”到“慧種地”:中國智慧春耕跑出“加速度”

新華社
2026-03-27 18:51:13
伊朗下追殺令,在中東搜捕美軍,又有一國下場,德黑蘭等來強援

伊朗下追殺令,在中東搜捕美軍,又有一國下場,德黑蘭等來強援

至死不渝的愛情
2026-03-28 00:05:23
喝過宋太宗的酒后,60歲錢弘俶隨即暴亡,學者:李煜剛被毒殺不久

喝過宋太宗的酒后,60歲錢弘俶隨即暴亡,學者:李煜剛被毒殺不久

史筆似塵鉤
2026-03-15 21:56:41
2026-03-28 04:52:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12619文章數 142595關注度
往期回顧 全部

財經要聞

我在小吃培訓機構學習“科技與狠活”

頭條要聞

男醫生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

頭條要聞

男醫生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網抵制

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

汽車要聞

與眾08,金標大眾不能輸的一戰

態度原創

健康
數碼
房產
公開課
軍事航空

干細胞抗衰4大誤區,90%的人都中招

數碼要聞

洛斐QQ音樂聯名外設泄露:極地苔原色,瞬間激活432Hz自然聲

房產要聞

6.8萬方!天河員村再征地,金融城西區開發全面提速

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:已組織超100萬人為地面戰斗做準備

無障礙瀏覽 進入關懷版