網易首頁 > 網易號 > 正文申請入駐

比國產AI還卷：谷歌Gemma 4以小博大，端側模型迎來分水嶺

2026-04-03 22:11:34　來源: 雷科技

廣東舉報

分享至

發布才幾個小時，Gemma 4 就已經把開發者社區的情緒拉滿了。

北京時間 4 月 3 日凌晨，Google 推出了新一代開源模型 Gemma 4，包括 E2B、E4B、26B（MoE）、31B 「一門四杰」，其中 E2B、E4B 兩個較小模型直接可以在手機、樹莓派等設備上部署運行，26B、31B 兩個較大模型也只需要一張消費級顯卡就能跑起來。

不同于閉源的 Gemini 大模型走的是「力大磚飛」，Google 在 Gemma 開源模型的思路上一直是「小而精」。

但 Gemma 4 給人的第一印象還是有點不按劇本來。參數規模沒有膨脹，結構也談不上顛覆，可是在一系列 benchmark 里，Gemma 4 卻能逼近甚至超越更大一檔規模的模型。26B、31B 版本在 AI 競技場（人工對話打分）已經比肩一眾國產開源模型，甚至超越了 685B 的 DeepSeek V3.2 以及 397B 的 Qwen 3.5。

比國產模型還卷了。

過去在這個戰場上，Qwen 幾乎就是「小而精」模型的代名詞，但 Gemma 4 這次的進步確實太大了。不只是在 AI 競技場這種偏「AI 聊天」的真實場景測試中有驚艷的表現，Gemma 4 還是少有從一開始就面向本地 Agent 工作流設計的模型，也支持多模態。

這么小規模的模型下，Gemma 4 卻做到了超預期的性能和能力，也難怪 AI 研究工程師 Sebastian Raschka 在 X 上說，「Gemma 4 是一個巨大的跨越。」

但很多人忽略的一個關鍵，還在于開源協議的切換。這次 Google 終于想通了，放棄了自家糟糕透頂的 Gemma 開源協議，Gemma 4 全系換上了主流的 Apache 2.0 協議，從個人到企業都可以放心商用、再分發。

開源 AI 模型的格局，又要再變一次？

免費、無 API，大模型不大但好用

先從 26B 和 31B 這兩個模型說起。

按照過去兩年的直覺，這個參數規模幾乎不在第一梯隊。開源世界里，動輒就是百億、千億，甚至像 DeepSeek V3.2 這種 600B+ 級別的模型，才有資格談「對標閉源」。但 Gemma 4 的這兩個模型，上來就把這套邏輯打亂了。

26B 和 31B 的表現，不只是「能打」，而是已經開始穩定貼近甚至超過更大體量的模型。Google DeepMind 創始人兼 CEO Demis Hassabis就說得很直白，Gemma 4 就是「同級別（參數規模）最好的開源模型」。

需要一提的是，Gemma 4（26B）采用的是 MoE 架構，總參數 26B，但實際激活規模要小得多。這種設計帶來的直接結果不是紙面參數的好看，而是一個更現實的變化：在很多任務里，它用小模型的成本，打出了接近更大模型的效果。

圖片來源：英偉達

事實上，Gemma 4 的優勢，不在絕對能力，而在「智能密度」，或者說是每個參數的效率最大化。

26B 和 31B 就是最直觀的例子，在實際測試里就能感受到這種密度和效率。在一些開發者的早期測試中，它反而比更大的模型更「好用」，因為它不只是能做，還能穩定、快速地做。

簡言之，能夠承擔更復雜的任務和更好的表現。

Gemma 4 推出后，X 上就有獨立開發者就在 RTX 5090 上本地部署了 31B，不僅能快速完成代碼生成、多模態理解任務，整體表現已經相當可用。至于 Gemma 4（26B），在 Mac mini（M4 16GB）上就能很好地部署運行。

更重要的是，Hacker New 社區還有人指出，測試將 Gemma 4 接進 code-agent harness（30K+ 上下文）的表現很好，明顯快于 Qwen 同級模型。

免費、無需 API。Gemma 4 的 26B 和 31B，并不是最強的開源模型，但已經足夠強，同時又足夠「輕」，甚至可以真正在本地做事，用極低的使用成本在本地處理一系列低復雜度的 Agent 任務。

這也是為什么很多開發者在討論 Gemma 4 時，很少再糾結它和 GPT、Claude 的差距，而是開始討論另一件事，這樣體量的模型，能不能成為本地 Agent 的核心。因為一旦這個問題的答案變成「可以」，那整個開源模型的價值，就不再只是替代 API，而是開始接管一部分真實的工作流。

接下來一段時間，相信這也是 Gemma 4 的重點。

聯手高通、聯發科，小模型引發本地 Agent 浪潮？

但這一代 Gemma 4，不只看 26B、31B，把視角往下拉到 E2B、E4B，會發現 Google 還想更進一步把端側 AI 塞進手機等邊緣設備。

先說一點。這兩個模型不是可以在端側跑，而是從一開始就是為端側設計的。Google 在官方描述里就強調，E2B 和 E4B 的目標是「重新定義端側實用性」，優先考慮的是低延遲、多模態和系統級集成，而不是參數規模。這句話背后其實很明確，它們不是縮小版的大模型，而是另一類產品。

這類產品最關鍵的一點，是把「本地 AI」從概念變成了一個可以落地的工程路徑。E2B 在量化之后可以壓到 1.5GB 以內，在樹莓派 5 上也能跑出可用的推理速度，prefill 可以到 100 tokens/s 以上。意味著一個不依賴云、不走 API 的 AI 系統，開始可以在極其有限的硬件上運行。

手機上就能本地部署，圖片來源：Google

更重要的是，這件事并不是 Google 一家在做。為了讓這兩個模型真的跑起來，Google 這次是把整條硬件鏈路一起拉進來了，從 Pixel 團隊，到高通、聯發科，再到 ARM、NVIDIA，都參與了優化。換句話說，這還是一次面向手機和邊緣設備的系統級協同。

這也解釋了為什么 E2B 和 E4B 的意義，和過去的小模型完全不一樣。以前的小模型，本質是「能力不夠，只能在端側跑」。現在這兩個模型更像是「能力剛好夠，而且專門為端側優化」。它們不僅支持文本，還原生支持圖像、音頻輸入，甚至可以直接參與多步 Agent 工作流，支持 Skiill。

可以安裝 App 使用，圖片來源：Google

真正的變化在這里開始顯現。過去討論手機上的 AI，大多還停留在「調用云端模型」，本地只負責做一些簡單推理。但 Gemma 4 這一步，相當于是把更完整的 AI 能力，直接搬進手機等設備里，甚至是脫離網絡在本地運行 Agent 。

尤其是在豆包手機助手引發云端 AI Agent 的隱私安全顧慮之后，這對手機意味著什么，其實不難想象。

而當模型可以直接運行在 SoC 的 NPU 上，當系統級組件可以調用本地模型完成推理、生成、甚至多步任務執行，AI 也會更進一步變成操作系統的一部分。

所以 E2B 和 E4B 真正讓人興奮的地方，但不是它們的性能，而是讓人看到端側 AI 的潛力還有巨大的挖掘空間。而這條路徑，一旦跑通，影響的就不只是模型本身，而是整個終端生態。

開源 AI 模型，在 Agent 時代重新洗牌

最早，Meta 用 Llama 奠定了開源模型生態的方式，但很快，從 Qwen、DeepSeek 到去年 Kimi、MiniMax 的相繼開源，中國公司已經主導了全球開源 AI 的大模型格局，也在在性能、成本和落地能力上同時逼近甚至反超閉源模型。

也正是在這個背景下，再看 Google 的動作，就不只是一次模型更新了。

Gemma 過去一直處在一個略顯尷尬的位置，名義上開源，但協議并不徹底，企業用起來有顧慮，開發者也很難放心做二次分發和深度定制。這一次，Gemma 4 直接換成 Apache 2.0，本質上是把最后一道門檻拆掉了，從「可以用」變成「可以放心用」。

圖片來源：安卓

這一步的意義，比模型本身更大。因為它等于明確了一件事，Google 不只是要做模型，還要重新進入開源生態。

這也讓它的整體策略變得更清晰了。一邊是 Gemini，繼續對標 GPT 和 Claude，守住能力上限和商業化；另一邊是 Gemma，面向開發者、面向本地部署、面向生態擴展。閉源和開源，不再是取舍，而是分工。

過去幾個月，真正把行業注意力拉走的，是 Agent。無論是 Anthropic 推出的 Claude Code，還是開源社區圍繞 OpenClaw 搭起來的一整套工具鏈，大家討論的焦點已經不再是對話、多模態，而是「干活」。

圖片來源：OpenClaw

在這波變化里，Gemini 的存在感其實不算強。能力依然在第一梯隊，但在開發者心智里，它并沒有成為 Agent 的首選底座。這也是為什么你會看到越來越多開發者開始轉向開源模型，哪怕能力略遜一籌，也更愿意換取可控性和可部署性。

Gemma 4 出現在這個時間點，就顯得很微妙了。

一方面，它補上了 Google 在開源上的短板，尤其是協議問題解決之后，開發者終于可以真正把它當作基礎設施來用。另一方面，它又剛好踩在「本地 Agent」這個新需求上，無論是 26B、31B，還是 E2B、E4B，都在試圖回答同一個問題：能不能把一部分 AI 能力，直接搬到設備上運行。

這未必是最激進的一步，但很可能是最現實的一步。

開源模型的競爭，正在從「誰更強」，變成「誰更能被用起來」。而在這個新的牌桌上，Google 終于重新坐了下來，只是這一次，它不再是發牌的人，而是必須重新爭奪籌碼的玩家。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.