337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Google把AI模型壓了3倍,手機(jī)跑大模型終于不用等云了

0
分享至


2026年3月24日,Google Research扔出一組數(shù)字:4倍壓縮,零精度損失。不是實(shí)驗(yàn)室玩具,是已經(jīng)測完的量產(chǎn)方案。

這事的背景很現(xiàn)實(shí)——你的手機(jī)想跑大模型,要么等云端回傳,要么被內(nèi)存卡死。TurboQuant(渦輪量化)就是沖著這個卡脖子環(huán)節(jié)來的。它干掉了傳統(tǒng)量化方法里那個隱藏的"內(nèi)存稅",讓壓縮后的模型直接塞進(jìn)邊緣設(shè)備。

Amir Zandieh和Vahab Mirrokni在博客里說得很直接:「向量是AI理解世界的基本方式」。小向量描述簡單屬性,比如圖上的一個點(diǎn);高維向量捕捉復(fù)雜信息——圖像特征、詞義、數(shù)據(jù)集屬性。但高維向量的代價是內(nèi)存爆炸,直接堵死鍵值緩存(KV Cache)這個高速"數(shù)字備忘條"。

傳統(tǒng)向量量化有個尷尬的秘密:它自己也要吃內(nèi)存。大多數(shù)方法需要為每個小塊數(shù)據(jù)計算并存儲全精度的量化常數(shù),額外開銷1-2比特/數(shù)字。壓縮了一半,又被 overhead 吃回來。

TurboQuant的解法分兩步。先用Quantized Johnson-Lindenstrauss(量化約翰遜-林登斯特勞斯變換,QJL)把高維數(shù)據(jù)"拍扁",同時保住數(shù)據(jù)點(diǎn)之間的關(guān)鍵距離關(guān)系;再用PolarQuant(極化量化)處理剩下的細(xì)節(jié)。兩者都是ICLR 2026和AISTATS 2026的接收論文,理論底子扎實(shí)。

QJL:數(shù)學(xué)上的"保距壓縮"

Johnson-Lindenstrauss變換是個經(jīng)典工具,核心承諾是:高維空間里的點(diǎn)集,可以映射到低維空間,且點(diǎn)間距離幾乎不變。QJL的創(chuàng)新在于把變換后的結(jié)果進(jìn)一步量化到單比特,同時控制失真。

具體來說,QJL對每個向量施加隨機(jī)投影矩陣,將原本32位浮點(diǎn)數(shù)的高維表示,壓縮到1比特/維度。聽起來瘋狂,但數(shù)學(xué)保證是:內(nèi)積和歐氏距離的估計誤差有明確上界。

Amir Zandieh團(tuán)隊(duì)在測試中發(fā)現(xiàn),QJL在向量檢索任務(wù)上的召回率損失可以壓到1%以內(nèi)。對于需要海量候選匹配的搜索場景,這個代價幾乎可忽略,但內(nèi)存占用直接砍到1/32。

傳統(tǒng)方法到這里會停住——隨機(jī)投影需要存儲投影矩陣,或者至少存儲隨機(jī)種子和生成狀態(tài)。QJL的 trick 是構(gòu)造結(jié)構(gòu)化隨機(jī)矩陣,用極少的參數(shù)(比如一個哈希種子)就能復(fù)現(xiàn)整個投影過程。存儲開銷從O(d2)降到O(1)。

PolarQuant:定向優(yōu)化的"二次壓縮"

QJL處理完"骨架",PolarQuant負(fù)責(zé)"血肉"。它針對殘差向量做極坐標(biāo)分解,把剩余信息按重要性分層編碼。

關(guān)鍵觀察是:經(jīng)過QJL壓縮后的殘差,在不同方向上的方差分布極不均勻。PolarQuant用自適應(yīng)比特分配,把有限的比特預(yù)算砸向高方差方向,低方差方向粗暴截斷。這種"好鋼用在刀刃上"的策略,讓同等比特率下的重建誤差再降40%。

Amir Zandieh的解釋很產(chǎn)品經(jīng)理:「就像JPEG對圖像做DCT變換后,對高頻分量粗量化一樣」。PolarQuant把向量當(dāng)成了信號,用信息論的工具重新排布比特。

兩者組合成TurboQuant時有個精妙之處:QJL的隨機(jī)投影天然打亂原始數(shù)據(jù)的結(jié)構(gòu),讓后續(xù)PolarQuant的極坐標(biāo)分解更均勻,避免了某些方向被過度壓縮的死角。

KV Cache:被忽視的內(nèi)存黑洞

大模型推理時,KV Cache是隱形成本大戶。生成每個新token,都要把前面所有token的鍵(Key)和值(Value)向量調(diào)出來做注意力計算。長對話場景下,這部分內(nèi)存占用會超過模型參數(shù)本身。


以Llama 3 70B為例,32K上下文、批量大小為1時,KV Cache吃掉約80GB顯存。模型參數(shù)才140GB,緩存已經(jīng)追上一大半。上下文再拉長,緩存線性增長,參數(shù)固定不變,很快成為瓶頸。

現(xiàn)有解法分兩類:稀疏化(扔掉不重要的歷史token)和量化(壓縮存起來的向量)。稀疏化丟信息,長程依賴容易斷;傳統(tǒng)量化有前面說的overhead問題,且對異常值敏感。

TurboQuant的測試數(shù)據(jù)顯示:在Llama 3和Mistral系列上,4倍壓縮(4-bit)時perplexity(困惑度,衡量語言模型預(yù)測能力的指標(biāo))變化小于0.5%,8倍壓縮(2-bit)時仍控制在2%以內(nèi)。作為對比,標(biāo)準(zhǔn)INT8量化在2-bit時通常崩掉,perplexity暴漲超過10%。

Vahab Mirrokni提到一個細(xì)節(jié):「我們在Google內(nèi)部的搜索索引上跑了A/B測試,QJL讓向量檢索的P99延遲從23ms降到7ms」。搜索是Google的老本行,這個場景驗(yàn)證通過,意味著技術(shù)已經(jīng)過生產(chǎn)環(huán)境的壓力測試。

向量搜索:從"近似"到"幾乎一樣"

向量搜索是另一個主戰(zhàn)場。推薦系統(tǒng)、圖像檢索、RAG(檢索增強(qiáng)生成,Retrieval-Augmented Generation)都依賴它:把查詢轉(zhuǎn)成向量,在海量候選向量里找最相似的K個。

暴力精確搜索的復(fù)雜度是O(N×d),N是候選數(shù),d是維度。十億級候選、千維向量時,這數(shù)字算不過來。工業(yè)界的解法是近似最近鄰搜索(ANN, Approximate Nearest Neighbor),用空間換時間,預(yù)先建索引。

但ANN有個 trade-off:索引體積 vs. 搜索精度。壓縮后的向量能讓索引更小,緩存更多,減少磁盤IO。TurboQuant的4倍壓縮,意味著同樣內(nèi)存能塞4倍候選,或者同樣候選用1/4機(jī)器。

Google Research的測試覆蓋了兩個典型場景:

文本嵌入檢索:MS MARCO數(shù)據(jù)集上,QJL壓縮到1-bit后,NDCG@10指標(biāo)損失0.8%,但索引體積從12GB壓到380MB。單臺服務(wù)器就能吞下全量索引,查詢?nèi)虄?nèi)存命中。

圖像向量搜索:ImageNet特征向量(2048維)用PolarQuant壓到4-bit,Top-1召回率從99.2%降到98.7%,但查詢吞吐量提升6倍。對于"以圖搜圖"這類延遲敏感場景,這是劃算的買賣。

Amir Zandieh的團(tuán)隊(duì)還測了一個極端情況:把QJL和PolarQuant疊到1+2比特(QJL輸出1-bit,PolarQuant殘差2-bit),總3-bit。結(jié)果在GloVe詞向量類比任務(wù)上,語義相似度排名的Spearman相關(guān)系數(shù)只掉了0.03。這個壓縮率下,傳統(tǒng)方法早已面目全非。

為什么現(xiàn)在能成:理論工具的成熟

向量量化不是新東西,80年代就有了。但把理論保證推到實(shí)用級別,需要幾個條件同時滿足:

隨機(jī)投影的集中不等式(Concentration Inequality)精度提升。Johnson-Lindenstrauss引理的經(jīng)典版本說,k維投影能把n個點(diǎn)的距離失真控制在(1±ε)內(nèi),要求k=O(ε?2log n)。近年 tighter 的分析把常數(shù)項(xiàng)壓到實(shí)用范圍,讓1-bit量化有了數(shù)學(xué)底氣。

極化碼(Polar Code)的思想遷移。PolarQuant的名字來源——Erdal Ar?kan的極化碼理論,原本用于信道編碼,核心是通過線性變換把噪聲"極化"到少數(shù)維度。PolarQuant把向量殘差當(dāng)成"信道",把量化噪聲當(dāng)成"干擾",用類似策略讓重要方向少受污染。

硬件友好性的刻意設(shè)計。TurboQuant的解壓流程全是位運(yùn)算和查表,沒有浮點(diǎn)除法或復(fù)雜非線性。這意味著GPU/TPU上的內(nèi)核可以寫得很薄,解壓開銷壓到計算時間的5%以下。 Amir Zandieh提到:「我們花了三個月調(diào)CUDA內(nèi)核,讓QJL的投影矩陣生成和PolarQuant的極坐標(biāo)查表都能fuse成單個kernel launch」。


落地路徑:Google內(nèi)部的優(yōu)先級

技術(shù)博客的發(fā)布時機(jī)值得玩味。ICLR 2026和AISTATS 2026的接收結(jié)果剛出,Google選擇同步放代碼和博客,而不是等會議召開。這種"預(yù)發(fā)布"策略通常意味著:產(chǎn)品化已經(jīng)在路上。

Vahab Mirrokni的身份是VP兼Google Fellow,這個級別的人出面寫技術(shù)博客,信號強(qiáng)度高于普通研究員。Google Fellow是Google技術(shù)職級的天花板,全公司幾十人,能調(diào)動工程資源把研究變成服務(wù)。

可能的落地場景:

搜索排名的實(shí)時向量匹配。Google搜索早就用神經(jīng)網(wǎng)絡(luò)做語義理解,但十億級文檔的向量索引一直是成本大頭。TurboQuant能讓更多索引進(jìn)內(nèi)存,或者同樣預(yù)算下建更精細(xì)的分層索引。

Android端的Gemini Nano擴(kuò)容。現(xiàn)在Gemini Nano是3.2B參數(shù),受限于手機(jī)內(nèi)存。TurboQuant的4倍壓縮理論上能讓12B模型以同等內(nèi)存 footprint 跑在本地,接近Gemini Pro的輕量版體驗(yàn)。

Cloud TPU的KV Cache優(yōu)化。Google Cloud賣TPU實(shí)例,內(nèi)存是定價的關(guān)鍵變量。如果TurboQuant能讓客戶用更少TPU跑同樣長的上下文,或者同樣TPU跑更長上下文,這是直接的差異化賣點(diǎn)。

Amir Zandieh在博客結(jié)尾留了個鉤子:「我們正在探索TurboQuant和多模態(tài)模型的結(jié)合」。多模態(tài)的向量維度通常更高(圖像+文本聯(lián)合嵌入動輒上萬維),壓縮收益更大,但不同模態(tài)的統(tǒng)計特性差異也大,需要針對性調(diào)參。

開源社區(qū)的反應(yīng)很快。博客發(fā)布當(dāng)天,Hugging Face上就有開發(fā)者用llama.cpp的量化接口試搭TurboQuant,發(fā)現(xiàn)QJL的投影矩陣生成可以用SIMD指令加速,單核每秒能處理百萬級向量。PolarQuant的極坐標(biāo)查表更適合GPU并行,但CPU fallback 已經(jīng)可用。

一個細(xì)節(jié)被多人驗(yàn)證:TurboQuant對"異常值向量"(outlier vectors)的魯棒性明顯好于標(biāo)準(zhǔn)INT8。Transformer的注意力分?jǐn)?shù)偶爾爆出極大值,傳統(tǒng)量化會在這類向量上嚴(yán)重失真,TurboQuant的隨機(jī)投影把異常值"攤平"到多個維度,單點(diǎn)爆炸被稀釋。

也有踩坑的。有人在Mistral 7B上試8倍壓縮(2-bit),發(fā)現(xiàn)代碼生成任務(wù)的HumanEval通過率掉了8個百分點(diǎn),比博客報告的語言建模perplexity惡化更明顯。 Amir Zandieh在評論區(qū)回復(fù):「代碼生成對精確token匹配更敏感,建議用4-bit或配合speculative decoding」。這個互動本身說明團(tuán)隊(duì)在看反饋,技術(shù)細(xì)節(jié)沒有封死。

競品視角:OpenAI的GPT-4 Turbo、Anthropic的Claude 3、Meta的Llama 3,都沒有公開同等強(qiáng)度的KV Cache量化方案。OpenAI的API定價按token數(shù)走,不暴露底層優(yōu)化;Meta的Llama.cpp社區(qū)有GGUF格式的大量實(shí)踐,但理論保證弱于TurboQuant。Google這次選擇先發(fā)論文再開源,節(jié)奏上搶了一個身位。

長期懸念在于:TurboQuant的隨機(jī)投影需要固定矩陣維度,模型架構(gòu)變更時是否要重新調(diào)參? Amir Zandieh的博客提到「維度自適應(yīng)的擴(kuò)展正在研究中」,但沒給時間表。如果Llama 4或者Gemini 2換了隱藏層維度,現(xiàn)有QJL矩陣可能直接作廢,這是落地中的摩擦成本。

另一個未知數(shù)是硬件廠商的配合。TurboQuant的位運(yùn)算設(shè)計對通用GPU友好,但專用AI加速器(比如Google自己的TPU、蘋果的Neural Engine)有各自的內(nèi)存布局和指令集。QJL的1-bit訪問模式在某些架構(gòu)上可能觸發(fā)對齊懲罰,需要針對性內(nèi)核優(yōu)化。Google有TPU的全棧控制權(quán),但第三方芯片的適配要看社區(qū)或廠商意愿。

回到用戶視角:如果TurboQuant順利落地,明年你用手機(jī)跑本地大模型,上下文長度可能從現(xiàn)在的4K跳到32K,或者同樣4K但響應(yīng)速度快3倍。不是云端的幻覺,是芯片里的真實(shí)計算。

Google Research的博客最后放了一張圖:Llama 3 70B的KV Cache占用隨上下文長度的曲線,TurboQuant 4-bit版本和原始FP16的gap隨長度線性拉開。8K上下文時差距是60GB vs 15GB,32K時是240GB vs 60GB。這差距就是成本,就是能不能在單卡上跑起來的分界線。

Amir Zandieh和Vahab Mirrokni沒有寫總結(jié)陳詞,最后一段是技術(shù)細(xì)節(jié):「PolarQuant的極坐標(biāo)分解采用貪心比特分配,迭代優(yōu)化直到邊際收益低于閾值」。典型的工程師收尾——事情還沒完,但第一塊石頭已經(jīng)搬開。

現(xiàn)在的問題是:當(dāng)你的手機(jī)能本地跑12B模型時,那些依賴云端API收費(fèi)的商業(yè)模式,還站得住腳嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
兩省省委領(lǐng)導(dǎo)班子調(diào)整

兩省省委領(lǐng)導(dǎo)班子調(diào)整

上觀新聞
2026-03-25 15:07:07
自作自受!歐爾班硬剛歐盟阻援烏,160億歐元信貸被直接凍結(jié)

自作自受!歐爾班硬剛歐盟阻援烏,160億歐元信貸被直接凍結(jié)

老馬拉車莫少裝
2026-03-26 10:24:28
伊朗軍方:中東地區(qū)內(nèi)“所有美軍基地已被摧毀” 部分美軍指揮官和士兵已離開基地 伊朗武裝力量正展開搜捕

伊朗軍方:中東地區(qū)內(nèi)“所有美軍基地已被摧毀” 部分美軍指揮官和士兵已離開基地 伊朗武裝力量正展開搜捕

閃電新聞
2026-03-26 10:00:46
騎士兩大敗因出爐,哈登賽季新高!阿特金森直言不諱,米切爾無奈

騎士兩大敗因出爐,哈登賽季新高!阿特金森直言不諱,米切爾無奈

魚崖大話籃球
2026-03-26 11:49:12
帶娃出國的中產(chǎn)后悔了:想回來,但回國失敗

帶娃出國的中產(chǎn)后悔了:想回來,但回國失敗

視覺志
2026-03-24 10:36:13
巴蒂:馬拉多納離世時身邊沒有人,最后走得像條狗一樣

巴蒂:馬拉多納離世時身邊沒有人,最后走得像條狗一樣

懂球帝
2026-03-26 06:43:02
花小錢辦“大”事!近5米級、2.0T+8AT的傳祺GS8只要12萬?

花小錢辦“大”事!近5米級、2.0T+8AT的傳祺GS8只要12萬?

汽車投訴網(wǎng)
2026-03-26 09:54:51
張雪峰:如果你不好好學(xué)習(xí),一旦掉入社會底層,和一群沒有素質(zhì)的人混在一起.....

張雪峰:如果你不好好學(xué)習(xí),一旦掉入社會底層,和一群沒有素質(zhì)的人混在一起.....

山東教育
2026-01-27 11:38:18
神筆警探林宇輝再繪“梅姨”老年畫像:她年齡增大,精神也受折磨,面貌應(yīng)該變化很大

神筆警探林宇輝再繪“梅姨”老年畫像:她年齡增大,精神也受折磨,面貌應(yīng)該變化很大

極目新聞
2026-03-26 11:14:21
中疾控發(fā)布提示:我國面臨較大疫情輸入風(fēng)險

中疾控發(fā)布提示:我國面臨較大疫情輸入風(fēng)險

隨州派
2026-03-24 11:44:16
人不會無緣無故患心源性猝死!研究發(fā)現(xiàn):猝死的人,多半愛干3事

人不會無緣無故患心源性猝死!研究發(fā)現(xiàn):猝死的人,多半愛干3事

垚垚分享健康
2026-03-25 13:25:46
劉青山和張子善一起貪污171.6億舊人民幣,放到現(xiàn)在能值多少錢

劉青山和張子善一起貪污171.6億舊人民幣,放到現(xiàn)在能值多少錢

鶴羽說個事
2026-03-25 22:25:17
徐陽點(diǎn)評U23國足2-2泰國:句句實(shí)在話,理性看球更懂賽場本質(zhì)!

徐陽點(diǎn)評U23國足2-2泰國:句句實(shí)在話,理性看球更懂賽場本質(zhì)!

田先生籃球
2026-03-26 06:00:06
社評:親身了解中國,美國官員急需補(bǔ)上的一課

社評:親身了解中國,美國官員急需補(bǔ)上的一課

環(huán)球網(wǎng)資訊
2026-03-26 00:05:09
林彪的兒子要結(jié)婚,葉群在全國選美,毛主席得知說了5個字

林彪的兒子要結(jié)婚,葉群在全國選美,毛主席得知說了5個字

揚(yáng)平說史
2026-03-25 21:04:04
5月起生效!俄羅斯關(guān)閘,8000噸黃金不賣了,全球金市變天

5月起生效!俄羅斯關(guān)閘,8000噸黃金不賣了,全球金市變天

瑛派兒老黃
2026-03-26 10:43:45
閉眼隔扣+戲耍兩人后嘲諷拉滿!41歲詹皇23+9+9 在場+24湖人封王

閉眼隔扣+戲耍兩人后嘲諷拉滿!41歲詹皇23+9+9 在場+24湖人封王

顏小白的籃球夢
2026-03-26 09:40:23
11人走10人:xAI創(chuàng)始團(tuán)隊(duì)幾近清零,馬斯克親自接管穩(wěn)軍心

11人走10人:xAI創(chuàng)始團(tuán)隊(duì)幾近清零,馬斯克親自接管穩(wěn)軍心

IT之家
2026-03-26 13:50:19
歐盟威脅越南:若中方參與了…

歐盟威脅越南:若中方參與了…

觀察者網(wǎng)
2026-03-25 15:19:16
BBC采訪爆出大瓜!特朗普開出停戰(zhàn)價碼:海灣國家需支付2.5萬億美元

BBC采訪爆出大瓜!特朗普開出停戰(zhàn)價碼:海灣國家需支付2.5萬億美元

星辰大海路上的種花家
2026-03-25 13:08:50
2026-03-26 15:27:00
薛定諤的BUG
薛定諤的BUG
有態(tài)度網(wǎng)友ytd
153文章數(shù) 1關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設(shè)施

頭條要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設(shè)施

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰家人首發(fā)聲 不設(shè)追思會喪事從簡

財經(jīng)要聞

黃仁勛:芯片公司的時代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
數(shù)碼
手機(jī)
公開課
軍事航空

教育要聞

高考地理中的花海經(jīng)濟(jì)

數(shù)碼要聞

配件制造商清單泄露:2026款iPad將搭載A18芯片

手機(jī)要聞

存儲漲價苦了國產(chǎn)品牌、普通消費(fèi)者,蘋果卻不受影響

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設(shè)施

無障礙瀏覽 進(jìn)入關(guān)懷版