Model
今天凌晨,Google DeepMind 發(fā)布了新一代開源模型 Gemma 4
![]()
Gemma 是 Google 的開源模型系列,和閉源旗艦 Gemini 共享底層技術(shù),權(quán)重完全公開,任何人可以下載、修改、部署。上一代 Gemma 3 是 2025 年 3 月發(fā)的,到這次更新整整一年。在這一年里國內(nèi)幾家開源模型已經(jīng)迭代了好幾輪,Google 在開源賽道的存在感越來越弱
這次一口氣放出四款模型,從手機到工作站全覆蓋。許可證從 Google 自有協(xié)議換成了 Apache 2.0
![]()
Gemma 4 在 Arena AI 開源排行榜的 Elo 評分 vs 參數(shù)量,31B 排第三,26B MoE 排第六
四款模型
Gemma 4 發(fā)布了四個版本,分大模型組和小模型組
31B Dense:310 億參數(shù)全激活,60 層,256K 上下文。追求質(zhì)量上限,Arena AI 開源排行榜第三。未量化 bfloat16 權(quán)重一張 80GB H100 就能裝下,量化后消費級顯卡也能跑
26B A4B MoE:252 億總參數(shù)、38 億激活參數(shù),MoE 架構(gòu)(128 個專家,每次激活 8 個加 1 個共享),30 層,256K 上下文。推理速度接近 4B 模型,質(zhì)量遠超 4B 水平。排行榜第六
![]()
四款模型架構(gòu)參數(shù)對比
E4B:80 億總參數(shù)、45 億有效參數(shù),42 層,128K 上下文。名字里的 E 是 Effective 的縮寫,小模型用了 Per-Layer Embeddings 技術(shù),有效參數(shù)遠小于總參數(shù)
E2B:51 億總參數(shù)、23 億有效參數(shù),35 層,128K 上下文。據(jù)官方說法,在部分設(shè)備上內(nèi)存占用可以壓到 1.5GB 以下
![]()
官方的四款模型能力對比
所有模型都支持圖像和視頻輸入,支持 140 多種語言
各模型均為多模態(tài),小模型支持語音輸入,大模型反而不支持
E2B 和 E4B 各自帶了一個約 3 億參數(shù)的音頻編碼器,可以做語音識別和語音翻譯(最長 30 秒)。大模型沒有音頻能力。從產(chǎn)品邏輯看,手機端語音是剛需,工作站場景下不是
Google 和 Pixel 團隊、高通、聯(lián)發(fā)科合作優(yōu)化了端側(cè)部署。E2B 和 E4B 可以在手機、樹莓派、NVIDIA Jetson Orin Nano 上完全離線運行
成績
先說結(jié)論:相比上一代 Gemma 3 27B,多個核心指標的提升是代際級別的
![]()
Gemma 4 完整 Benchmark 數(shù)據(jù),最后一列為 Gemma 3 27B 基線
數(shù)學(xué):AIME 2026 競賽測試,31B 拿到 89.2%,Gemma 3 27B 是 20.8%
代碼:Codeforces ELO 從 110 拉到 2150。LiveCodeBench v6 從 29.1% 到 80.0%。代碼是這次進步最大的方向
綜合推理:GPQA Diamond(研究生級科學(xué)問答)從 42.4% 到 84.3%。MMLU Pro 從 67.6% 到 85.2%
視覺:MMMU Pro 從 49.7% 到 76.9%。文檔 OCR(OmniDocBench)從 0.365 到 0.131
長上下文:MRCR v2 128K 從 13.5% 到 66.4%。長上下文此前是 Gemma 的短板,這次補回來了
多語言:MMMLU 從 70.7% 到 88.4%。原生訓(xùn)練了 140 多種語言
26B MoE 和 31B 在大部分指標上只差 2 到 5 個百分點,但推理速度快得多。延遲敏感的場景下 26B MoE 性價比更高
E4B 的 MMLU Pro 69.4%%,有效參數(shù)只有 45 億,接近上一代 27B 的水平
核心能力
推理和思考。四款模型都內(nèi)置了可開關(guān)的思考模式,開啟后模型先輸出內(nèi)部推理再給答案。數(shù)學(xué)、邏輯、多步驟規(guī)劃類任務(wù)效果好很多,和 Gemini 的 thinking 能力同源
Agent 工作流。原生支持函數(shù)調(diào)用和結(jié)構(gòu)化 JSON 輸出,可以讓模型調(diào)用外部工具和 API。Google 同步發(fā)布了 Agent Development Kit(ADK),一個開源的 Agent 框架。端側(cè) E2B/E4B 也能跑 Agent,Google AI Edge Gallery 里已有示范應(yīng)用
代碼生成。支持離線寫代碼。Codeforces ELO 2150、LiveCodeBench 80.0%,在代碼補全和生成場景里是可用的
多模態(tài)理解。所有模型都能處理圖片和視頻(視頻按幀處理,最長 60 秒)。圖片支持可變分辨率和寬高比,視覺 token 預(yù)算可手動配置(70 到 1120 五檔),低預(yù)算換速度,高預(yù)算換精度。OCR、文檔解析、圖表理解是重點場景
長文檔。大模型 256K 上下文,小模型 128K。架構(gòu)上用混合注意力機制(局部滑動窗口 + 全局注意力交替),全局層用統(tǒng)一 KV 和 Proportional RoPE 優(yōu)化長上下文的內(nèi)存占用
多語言。原生訓(xùn)練 140 多種語言,MMMLU 88.4%
Apache 2.0
之前 Gemma 1/2/3 用的都是 Google 自己的許可協(xié)議,雖然允許商用但有附加條款。這次直接換成了 Apache 2.0,開源社區(qū)最認可的商業(yè)友好型許可證之一。開發(fā)者可以自由修改、分發(fā)、商用,沒有用戶量門檻
Hugging Face 聯(lián)合創(chuàng)始人 Clément Delangue 評價這是一個重大里程碑。從 Gemma 系列自身看(三代自定義協(xié)議 → Apache 2.0),這是一個明確的轉(zhuǎn)向
Google 用許可證的選擇回答了一個討論了兩年的問題:大廠做開源到底有多大誠意
開源賽道的競爭者
Arena AI 開源排行榜上,Gemma 4 31B 排第三、26B MoE 排第六。排在前面的主要是國內(nèi)的開源模型
目前開源賽道的主要競爭者是 DeepSeek(V3.2 在用,V4 即將發(fā)布)、通義千問 Qwen3.5、智譜 GLM-5.1、MiniMax M2.5、月之暗面 Kimi K2.5。這幾家在今年春節(jié)前后密集發(fā)布了新版本,參數(shù)量從幾百億到上千億不等,在推理、代碼、Agent 等方向各有側(cè)重
Gemma 4 最大只有 31B,參數(shù)量的天花板是一個限制。但 Gemma 4 在端側(cè)部署的工程完整度上做得最深:和高通、聯(lián)發(fā)科的芯片級合作,和 Android 生態(tài)的原生打通,加上 Apache 2.0 的合規(guī)便利,這些是它的差異化
訓(xùn)練數(shù)據(jù)截止到 2025 年 1 月,且沒有公開訓(xùn)練數(shù)據(jù)的具體組成
![]()
去哪里用
→在線體驗:Google AI Studio(31B、26B),Google AI Edge Gallery App(E4B、E2B)
→模型下載:Hugging Face、Kaggle、Ollama
→云端部署:Vertex AI、Cloud Run、GKE
→Android 開發(fā):AICore Developer Preview(和 Gemini Nano 4 前向兼容)
→推理框架:Hugging Face Transformers、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM、LM Studio、Unsloth、SGLang 等
Gemma 系列到目前累計超過 4 億 次下載,社區(qū)產(chǎn)出超過 10 萬 個變體
Kaggle 上同步啟動了 Gemma 4 Good Challenge,鼓勵用 Gemma 4 做有社會價值的項目
參考材料
→ Google 官方博客https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
→ Google DeepMind 產(chǎn)品頁https://deepmind.google/models/gemma/gemma-4/
→ Gemma 4 Model Card(含完整 Benchmark)https://ai.google.dev/gemma/docs/core/model_card_4
→ Hugging Face 模型集合https://huggingface.co/collections/google/gemma-4
→ Hugging Face 技術(shù)博客https://huggingface.co/blog/gemma4
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.