Google Gemma 4發(fā)布：4000萬下載后

2026-04-04 01:51:31　來源: 爬蟲飼養(yǎng)員

北京舉報

分享至

Google在4月2日扔出Gemma 4，距離第一代Gemma上線剛好兩年。這次不是常規(guī)迭代——Apache 2.0協(xié)議首次出現(xiàn)在這個家族，意味著開發(fā)者可以把它塞進(jìn)商業(yè)產(chǎn)品，不用寫郵件求許可。

4000萬次下載、10萬個變體模型，這是Gemma系列交出的成績單。但開源社區(qū)有個心照不宣的默契：用得爽和用得安心是兩回事。之前的Gemma 3雖然開放，商用條款里藏著不少"需另行申請"的灰色地帶。這次Google把許可證徹底換成Apache 2.0，等于把鑰匙直接拍在桌上。

四張牌，覆蓋從手機(jī)到數(shù)據(jù)中心的全部戰(zhàn)場

Gemma 4這次發(fā)了四個型號，不是簡單的"大中小超小"區(qū)分，而是按硬件場景精準(zhǔn)切割。

E2B（Effective 20億活躍參數(shù)）瞄準(zhǔn)極端邊緣設(shè)備。智能手機(jī)、樹莓派、Jetson Orin Nano，128K上下文窗口，圖像視頻音頻全吃。設(shè)計目標(biāo)很明確：電池和內(nèi)存效率優(yōu)先，能跑起來比跑得快更重要。

E4B參數(shù)翻倍到40億活躍，硬件目標(biāo)不變，推理質(zhì)量明顯提升。代價是速度——比E2B慢約3倍，但能力差距肉眼可見。Google給出的數(shù)據(jù)是：較前代快4倍，耗電降60%。

26B MoE（混合專家架構(gòu)）開始玩參數(shù)效率的游戲。總共260億參數(shù)，推理時只激活38億。256K上下文，Arena AI文本排行榜第6。量化版本能塞進(jìn)消費級顯卡，這是MoE架構(gòu)的老本行——用內(nèi)存換智能。

31B Dense是全村的希望。純密集架構(gòu)，256K上下文，Arena AI排名第3。未量化版本單張80GB H100能跑，量化后消費級硬件可承載。Google明牌：這是微調(diào)的首選基底。

一個容易忽略的細(xì)節(jié)：E2B和E4B原生支持音頻輸入，26B和31B反而不支持。如果你的應(yīng)用需要語音識別，只能選邊緣型號。這個切割邏輯有點反直覺——通常認(rèn)為大模型才配多模態(tài)，Google卻把小模型的感官能力做全了。

"比20倍大的模型更強(qiáng)"：營銷話術(shù)的第三方驗證

Google宣稱Gemma 4能打敗參數(shù)20倍于它的對手。這種話術(shù)在AI圈聽多了，但Artificial Analysis的獨立數(shù)據(jù)讓吹牛變得困難。

GPQA Diamond（科學(xué)推理基準(zhǔn)）上，31B拿到85.7%，推理模式開啟。在400億參數(shù)以下的開源模型里排第二，僅次于Qwen3.5 27B的85.8%。差距0.1%，但計算效率的故事更值得關(guān)注：31B生成約120萬輸出token完成評估，Qwen3.5 27B用了150萬。質(zhì)量相當(dāng)，算力少20%。

26B MoE的成績單更刺眼。GPQA Diamond 79.2%，超過OpenAI的gpt-oss-120B（76.2%）。參數(shù)差距940億，得分卻倒掛了。

真正讓人坐直的是工具使用能力。τ2-bench（零售場景）上，31B拿86.4%，26B拿85.5%。作為參照，Gemma 3 27B只有6.6%。這不是進(jìn)步，是物種躍遷。多步驟工具調(diào)用這塊，Google內(nèi)部一定發(fā)生了某種架構(gòu)層面的重構(gòu)，而非簡單的數(shù)據(jù)堆砌。

數(shù)學(xué)和編程數(shù)據(jù)延續(xù)這個敘事。AIME 2026：31B 89.2%，26B 88.3%，Gemma 3 27B 20.8%。LiveCodeBench v6：31B 80.0%，26B 77.1%，Gemma 3 27B 29.1%。邊緣型號相對克制，E4B在LiveCodeBench拿52.0%，GPQA Diamond 58.6%——對手機(jī)能跑的模型來說，夠用了。

從Gemini 3偷來的技術(shù)棧

Gemma 4和Google的閉源旗艦Gemini 3共享研究棧。這是Google的慣用手法：先拿閉源模型探路，再把驗證過的技術(shù)下放開源家族。

好處很明顯。Gemma 4的推理能力、工具使用、多模態(tài)處理，背后都是Gemini 3已經(jīng)跑通的工程方案。開源社區(qū)相當(dāng)于白嫖了Google最昂貴的那部分研發(fā)。

但這也埋下隱患。Gemini 3的迭代節(jié)奏由Google全權(quán)控制，Gemma 4能跟上多少？歷史經(jīng)驗是：技術(shù)下放有延遲，且Google對開源模型的定位始終模糊——到底是生態(tài)誘餌，還是長期戰(zhàn)略？

Apache 2.0的切換可能是信號。之前的Gemma協(xié)議被開發(fā)者吐槽過"偽開源"，商用限制條款寫得像法律迷宮。這次Google選擇最寬松的主流許可證，等于把控制權(quán)讓渡給社區(qū)。如果只是想釣開發(fā)者上鉤，沒必要做到這個程度。

誰該選哪個型號？

選擇邏輯比參數(shù)表格更重要。

需要離線語音交互、手機(jī)端實時響應(yīng)：E2B或E4B。注意E4B的3倍速度代價，如果電池壽命是硬指標(biāo)，E2B更穩(wěn)妥。

消費級顯卡跑通用智能、預(yù)算有限：26B MoE。量化版本對顯存友好，Arena第6的排名保證基礎(chǔ)能力在線。

嚴(yán)肅微調(diào)、追求開源模型第一梯隊：31B Dense。單卡H100能訓(xùn)，這是小團(tuán)隊能觸及的上限。

一個反直覺的建議：如果你的應(yīng)用需要音頻+大模型，目前Gemma 4家族沒有完美選項。26B/31B的音頻缺失是明確的產(chǎn)品切割，可能是技術(shù)限制，也可能是Google故意留的差異化空間。

Google DeepMind的Gemma團(tuán)隊負(fù)責(zé)人Tommy Collins在發(fā)布當(dāng)天提到：「我們設(shè)計Gemma 4時，把'開發(fā)者能實際部署'作為第一約束條件，而不是實驗室里的理論最優(yōu)。」

這句話的潛臺詞是：Gemma 4的每個數(shù)字都對應(yīng)著真實的硬件成本和功耗曲線。當(dāng)其他實驗室還在用A100集群刷榜時，Google選擇把模型塞進(jìn)你能買到的設(shè)備里——這個選擇本身，算不算另一種意義上的領(lǐng)先？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.