![]()
Google在4月2日扔出Gemma 4,距離第一代Gemma上線剛好兩年。這次不是常規(guī)迭代——Apache 2.0協(xié)議首次出現(xiàn)在這個家族,意味著開發(fā)者可以把它塞進(jìn)商業(yè)產(chǎn)品,不用寫郵件求許可。
4000萬次下載、10萬個變體模型,這是Gemma系列交出的成績單。但開源社區(qū)有個心照不宣的默契:用得爽和用得安心是兩回事。之前的Gemma 3雖然開放,商用條款里藏著不少"需另行申請"的灰色地帶。這次Google把許可證徹底換成Apache 2.0,等于把鑰匙直接拍在桌上。
四張牌,覆蓋從手機(jī)到數(shù)據(jù)中心的全部戰(zhàn)場
Gemma 4這次發(fā)了四個型號,不是簡單的"大中小超小"區(qū)分,而是按硬件場景精準(zhǔn)切割。
E2B(Effective 20億活躍參數(shù))瞄準(zhǔn)極端邊緣設(shè)備。智能手機(jī)、樹莓派、Jetson Orin Nano,128K上下文窗口,圖像視頻音頻全吃。設(shè)計目標(biāo)很明確:電池和內(nèi)存效率優(yōu)先,能跑起來比跑得快更重要。
E4B參數(shù)翻倍到40億活躍,硬件目標(biāo)不變,推理質(zhì)量明顯提升。代價是速度——比E2B慢約3倍,但能力差距肉眼可見。Google給出的數(shù)據(jù)是:較前代快4倍,耗電降60%。
26B MoE(混合專家架構(gòu))開始玩參數(shù)效率的游戲。總共260億參數(shù),推理時只激活38億。256K上下文,Arena AI文本排行榜第6。量化版本能塞進(jìn)消費級顯卡,這是MoE架構(gòu)的老本行——用內(nèi)存換智能。
31B Dense是全村的希望。純密集架構(gòu),256K上下文,Arena AI排名第3。未量化版本單張80GB H100能跑,量化后消費級硬件可承載。Google明牌:這是微調(diào)的首選基底。
一個容易忽略的細(xì)節(jié):E2B和E4B原生支持音頻輸入,26B和31B反而不支持。如果你的應(yīng)用需要語音識別,只能選邊緣型號。這個切割邏輯有點反直覺——通常認(rèn)為大模型才配多模態(tài),Google卻把小模型的感官能力做全了。
"比20倍大的模型更強(qiáng)":營銷話術(shù)的第三方驗證
Google宣稱Gemma 4能打敗參數(shù)20倍于它的對手。這種話術(shù)在AI圈聽多了,但Artificial Analysis的獨立數(shù)據(jù)讓吹牛變得困難。
GPQA Diamond(科學(xué)推理基準(zhǔn))上,31B拿到85.7%,推理模式開啟。在400億參數(shù)以下的開源模型里排第二,僅次于Qwen3.5 27B的85.8%。差距0.1%,但計算效率的故事更值得關(guān)注:31B生成約120萬輸出token完成評估,Qwen3.5 27B用了150萬。質(zhì)量相當(dāng),算力少20%。
26B MoE的成績單更刺眼。GPQA Diamond 79.2%,超過OpenAI的gpt-oss-120B(76.2%)。參數(shù)差距940億,得分卻倒掛了。
真正讓人坐直的是工具使用能力。τ2-bench(零售場景)上,31B拿86.4%,26B拿85.5%。作為參照,Gemma 3 27B只有6.6%。這不是進(jìn)步,是物種躍遷。多步驟工具調(diào)用這塊,Google內(nèi)部一定發(fā)生了某種架構(gòu)層面的重構(gòu),而非簡單的數(shù)據(jù)堆砌。
數(shù)學(xué)和編程數(shù)據(jù)延續(xù)這個敘事。AIME 2026:31B 89.2%,26B 88.3%,Gemma 3 27B 20.8%。LiveCodeBench v6:31B 80.0%,26B 77.1%,Gemma 3 27B 29.1%。邊緣型號相對克制,E4B在LiveCodeBench拿52.0%,GPQA Diamond 58.6%——對手機(jī)能跑的模型來說,夠用了。
從Gemini 3偷來的技術(shù)棧
Gemma 4和Google的閉源旗艦Gemini 3共享研究棧。這是Google的慣用手法:先拿閉源模型探路,再把驗證過的技術(shù)下放開源家族。
好處很明顯。Gemma 4的推理能力、工具使用、多模態(tài)處理,背后都是Gemini 3已經(jīng)跑通的工程方案。開源社區(qū)相當(dāng)于白嫖了Google最昂貴的那部分研發(fā)。
但這也埋下隱患。Gemini 3的迭代節(jié)奏由Google全權(quán)控制,Gemma 4能跟上多少?歷史經(jīng)驗是:技術(shù)下放有延遲,且Google對開源模型的定位始終模糊——到底是生態(tài)誘餌,還是長期戰(zhàn)略?
Apache 2.0的切換可能是信號。之前的Gemma協(xié)議被開發(fā)者吐槽過"偽開源",商用限制條款寫得像法律迷宮。這次Google選擇最寬松的主流許可證,等于把控制權(quán)讓渡給社區(qū)。如果只是想釣開發(fā)者上鉤,沒必要做到這個程度。
誰該選哪個型號?
選擇邏輯比參數(shù)表格更重要。
需要離線語音交互、手機(jī)端實時響應(yīng):E2B或E4B。注意E4B的3倍速度代價,如果電池壽命是硬指標(biāo),E2B更穩(wěn)妥。
消費級顯卡跑通用智能、預(yù)算有限:26B MoE。量化版本對顯存友好,Arena第6的排名保證基礎(chǔ)能力在線。
嚴(yán)肅微調(diào)、追求開源模型第一梯隊:31B Dense。單卡H100能訓(xùn),這是小團(tuán)隊能觸及的上限。
一個反直覺的建議:如果你的應(yīng)用需要音頻+大模型,目前Gemma 4家族沒有完美選項。26B/31B的音頻缺失是明確的產(chǎn)品切割,可能是技術(shù)限制,也可能是Google故意留的差異化空間。
Google DeepMind的Gemma團(tuán)隊負(fù)責(zé)人Tommy Collins在發(fā)布當(dāng)天提到:「我們設(shè)計Gemma 4時,把'開發(fā)者能實際部署'作為第一約束條件,而不是實驗室里的理論最優(yōu)。」
這句話的潛臺詞是:Gemma 4的每個數(shù)字都對應(yīng)著真實的硬件成本和功耗曲線。當(dāng)其他實驗室還在用A100集群刷榜時,Google選擇把模型塞進(jìn)你能買到的設(shè)備里——這個選擇本身,算不算另一種意義上的領(lǐng)先?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.