網易首頁 > 網易號 > 正文申請入駐

芯片受限，意外加速了中國模型

2026-02-27 21:22:49　來源: 賽博禪心

北京舉報

分享至

? 海外的模型廠商有足夠多的頂級 GPU，可以靠堆算力的方式來直接處理信息。國內算力受限，必須在模型的底層設計上想辦法，以彌補硬件差距。 「中國的廠商，在資源有限的情況下，不得不去做這些架構優化」
? Transformer 模型在處理長文本時，有一個叫 Attention（注意力機制）的核心模塊。它的作用是讓模型在生成每一個字的時候「回頭看」前面所有內容。文本越長，回頭看的計算量越大，增長速度是平方級的。百靈把大部分 Attention 層替換成了計算量更低的線性版本，但剩下沒替換的那一小部分，仍然在超長上下文處理時吃掉了總算力的六成以上。 「成本，60% 都花在這了」
? 很多的模型評測都是單項考試，并不能很好的指導模型發展，比如：搜索能力單獨考，寫代碼能力單獨考。但真實工作從來都是混著來的。程序員寫代碼寫到一半卡住了，去搜一下，找到思路回來接著寫，但很可惜，對于這種情況， 「目前沒有任何一個 benchmark，能同時測好兩件事」
? 模型在變小，能力在變強。目前實際的預訓練實驗觀察就是，不到一年時間，一個不到200B總參數的模型，效果就可以超過萬億參數的模型。但對于正在做 Agent、做應用的團隊來說，等不了這一年。 「一年之后 200B 模型，能打贏今天的 1T。但一年時間，很多公司已經活不了了」

以上內容，來自我和零幺的對話，他在螞蟻負責語言基座模型的訓練

本篇歸屬「賽博史記 · 煉丹者列傳」，以對話來記錄每個知名大模型背后的人，以及他們每天需要面對的問題：中國模型，算力有限的情況下，要如何開展工作、產品和模型之間的能力應該怎么對齊，哪些技術賭注現在就要下

在這個混亂的時代里，讓我們看看，這些人的有著怎樣的洞察，以及正在作出怎樣的判斷

零幺，螞蟻的語言基座模型的負責人

他是螞蟻集團基礎智能部技術總監，負責百靈的基座訓練。但他以前從來沒做過 NLP，讀書到工作都在做圖機器學習，2024 年初才轉行，開始搞語言模型

一個從沒碰過 NLP 的人，兩年不到做到了國內頭部模型的負責人

我以為他會說些什么關于天賦或者機緣的話，結果他說：
大家想干都可以轉，這個行業，是向所有人開放的

2026 年 2 月，百靈發布了 2.5 系列，包括一個萬億參數的即時模型 Ling-2.5-1T 和一個萬億參數的思考模型 Ring-2.5-1T。全部開源，1T 總參 63B 激活，原生 256K 上下文窗口，外推支持 1M

在國內開源界，近兩年中，百靈也是除 Kimi 以外唯一發布過萬億參數規模模型的廠商

我們聊了將近兩小時，然后我發現：零幺說話的方式不太一樣，他很少講愿景，幾乎不用形容詞，大部分時間在報數字和做判斷。聊到架構選擇、評測盲區、產品協作這些話題時，他給出的都是具體方案

以下內容，基于我們的對談

兩條路線

國內和海外的模型廠商，在處理 Attention（注意力機制）這件事上，走了兩條完全不同的路。海外靠算力硬撐，用標準的 Full Attention 讓模型每次完整看一遍所有內容；國內算力受限，必須在架構創新，要用線性化、稀疏化等方式降低 Attention 的計算量

先解釋一下 Attention 在做什么。大語言模型在生成每一個字的時候，需要「回頭看」前面所有已經輸入和生成的內容，決定哪些跟當前要生成的字最相關。這個過程就是 Attention 在做的事。文章越長，回頭看的范圍越大，計算量增長是平方級的：長度翻倍，計算量大約翻四倍

海外廠商用的 Full Attention 效果好，穩定，就是費算力。但 Google、OpenAI、Anthropic 有足夠的頂級 GPU，撐得住

國內的情況不一樣。2022 年美國芯片出口管制升級后，國內能拿到的最好 GPU 是 H800，計算能力跟英偉達旗艦 H100 一樣，但芯片之間的通信帶寬從 900GB/s 砍到了 400GB/s，多張 GPU 協同工作時效率直接打了折。同樣的訓練任務，必須用更聰明的方式完成

在這個約束下，國內廠商做了兩件海外幾乎不做的事

第一件：MoE 的極致稀疏化。 MoE（混合專家模型）的原理是：模型雖然有一萬億個參數，但每次只讓其中一小部分參數「上場」干活?？倕荡?，知識儲備多，但實際消耗的算力很小

國內把這個思路推到了極致。DeepSeek 和百靈做到 256 個專家激活 8 個，Kimi K2 做到 384 個專家激活 8 個，千問 3.5 最激進，512 個專家激活 10 個。但是海外的話，大多不會采用極度稀疏和細粒度的混合專家方案，稀疏度差了一個數量級

第二件：給 Attention 動手術。 Full Attention 在長文本下成本太高，國內廠商想辦法降低這個成本，目前形成了三條路線：

線性化。 把 Attention 的計算量從平方級降到線性級。MiniMax 走得最早也最激進，MiniMax-Text-01 每 8 層中 7 層用 Lightning Attention（線性注意力），只留 1 層標準 Attention，訓練窗口 100 萬 token，推理外推到 400 萬。百靈 2.5 也是 1:7 的混合比例。千問同樣在 Linear Attention 方向持續投入

稀疏化。 保留標準 Attention，但讓模型學會「跳著看」，只關注最重要的內容。DeepSeek V3.2 和 GLM-5 走的是這條路，兩者都采用了 DSA 架構

做減法。 Kimi K2 旗艦模型沒有換 Attention 機制，而是把注意力頭從 128 個砍到 64 個。團隊發現翻倍的注意力頭在 128K 上下文時多消耗 83% 算力，性價比太低，直接砍半

不過 Kimi 后來也單獨出了一個探索性質的 Kimi Linear 小模型（48B），用 3:1 混合注意力，說明線性化方向他們也在看

總結下，大概是這樣 - MiniMax、百靈、千問 all-in 線性化； - DeepSeek、GLM 走稀疏化； - Kimi 靠 MoE 高稀疏加 MLA 壓縮來省算力，Attention 機制本身暫時不大改 MoE 方面基本是共識，大家都在往極致稀疏推

這些路線看起來各有各的選擇，但零幺認為背后只有一個驅動力：
「如果你給我 100 萬張 H100，我也會做海外那個選擇」

Full Attention 效果穩定，架構非常成熟，就是費算力，算力夠用的話沒人愿意折騰架構。線性化、稀疏化、砍注意力頭，本質是同一個約束條件逼出來的

DeepSeek 訓 V3 用了 2048 張 H800，278 萬 GPU 小時。Meta 訓 Llama 3 405B 花了 3080 萬 GPU 小時，11 倍于 DeepSeek

「中國的廠商，在資源有限的情況下，你不得不去做這件事情」

而這些為了省算力做的架構改造，恰好撞上了 Agent 時代最核心的需求

60% 的計算成本

百靈 2.5 的 80 層網絡里，已經把 72 層換成了線性注意力，只留了 8 層標準注意力（MLA）。對此，零幺補充到：上下文到 256K 以上時，那僅有的 8 層 MLA，占了總計算成本的 60% 以上

為什么 8 層就能吃掉 60%？因為 Agent 場景下上下文會變得非常長。人問一句、模型回一段，上下文可能就幾千字。但 Agent 執行任務的時候，中間不斷地搜索、讀文檔、寫代碼、看結果、再搜索，每一輪的輸入輸出都在堆積。一個 coding agent 連續工作幾個小時，上下文輕松突破 32K，到 128K、256K

上下文越長，標準 Attention 的計算量膨脹越快（平方級增長），而線性注意力只是線性增長。所以到了長上下文場景，那 8 層標準注意力雖然數量少，成本卻遠遠超過了 72 層線性注意力

在這一方面，百靈 2.5 用的是 1:7 混合比例（每 8 層里 1 層 MLA + 7 層 Lightning Linear Attention）。零幺說他們專門跑了一輪 Scaling Law 實驗，在不同混合比例下對比效果和效率的曲線，最后收斂到 1:7。百靈下一輪架構升級要解決的，還是這 60%

「國內大部分模型，要么在稀疏化上走得遠，要么在線性化上走得遠。否則會被效率打掉」

在效率和效果的優先級上，零幺給了一個跟行業主流不同的判斷：「大家更直觀的感受上，最大的挑戰在效果側。但在我的認知里面，效果和效率是同等重要的」

行業里大部分聲音，會說模型能力還不夠強，要繼續提升效果，但可能也需要算一筆賬：當資源有限、但 Agent 需求過剩的時候，效率就會變成生死問題

效果不夠強，還能用；但總是響應超時，那就沒有后續了

在這里，零幺有個核心判斷：架構本身不決定效果，但架構決定效率，而迭代效率最終決定模型效果。用更老的架構，你有足夠算力同樣能做出好模型——問題是國內沒有那個算力

Benchmark 高分，手感差

模型評測分數很高，真上手用卻覺得哪里不對勁

我把這個問題丟給了零幺，他則給了我一個很具體的原因：現在所有 benchmark 都是單項考試，搜索能力單獨考，寫代碼能力單獨考。但真實工作從來并非如此，幾個工具要同時用、來回切換，而目前沒有任何評測在測這個

大多數程序員日常工作時同時在用好幾個工具，寫代碼卡住了去搜一下，找到思路回來接著寫，寫完跑測試，報錯了再查文檔。幾個工具來回切換。但 Terminal Bench 測命令行操作，里面沒有搜索；Agent Search benchmark 測搜索能力，里面沒有 coding 環境。每個維度單獨測分都不低

「你讓模型單獨搜索它會，單獨寫代碼它也會。但你讓它邊搜邊寫，就崩了」

我自己評估模型的時候，也會看 coding 分數、math 分數、instruction following 分數。但如果一個模型搜索強、編碼也強，就是沒法同時調兩個工具配合干活，那這些單項分數就要打折

零幺給這個方向起了個名字，叫 production research：去觀察真正在生產環境里工作的人是怎么干活的，基于這些真實模式去設計評測和訓練數據

我問：你覺得有哪些 Benchmark 是被低估了嗎？
回答：GAIA2，相比一些其他榜單，GAIA2 可能更接近真實 Agent 場景，允許 Agent 異步執行多個有依賴關系的任務。做這個 benchmark 的團隊據說已經解散了，代碼有 bug 沒人維護。覺得這個方向對，就讓百靈團隊自己把 bug 修了，拿來做內部評估

我當時嘆了聲牛逼...判斷方向是對的，就動手補上缺的東西

聊到 Claude Code 為什么在多工具協同上表現好，零幺幫我分析了 Anthropic 的做法，認為一個重要原因是他們確實在做 production research，收集了大量真實工程師的工作模式來指導訓練

「這個事，靠的說投入和耐心，不單單是聰明」，以及...被嚴重低估的，是「多工具協同」這整個能力維度

松耦合

螞蟻內部，產品團隊和基模團隊的關系是：松耦合

產品團隊提前半年給出未來想要什么能力，基模團隊從中選擇能做且應該做的，兩邊在一個「池子」里找交集，各自保留各自的判斷

我問：如果兩年后螞蟻的模型大獲成功，它能占據的心智可能是什么？
回答到：專業服務業

這也是螞蟻的固有心智：從支付延伸到金融、醫療、生活服務，都是專業服務業，行業門檻高，專業從業者稀缺

普通人享受不到好的金融服務，社區醫生水平有限所以大家都去三甲，搜索引擎查個癥狀小毛病看著像絕癥。AI 如果能降低這些服務的門檻，就是螞蟻做基模的支點

具體是這樣運作的：靈光（螞蟻的 C 端 AI 產品）團隊提前半年做一個 demo 視頻，里面可能有十幾個設想中的功能。百靈團隊看完之后，判斷哪些能做、哪些三個月能出、哪些一年后還做不出來，從中 pick 一些去推進

一個例子：2025 年 2～3 月時，國內所有模型都生成不了好看的 HTML 頁面，只有 Claude 能做到。靈光團隊則評估這個很重要，就放進需求池。百靈在 2.0 版本訓練中就開始強化 HTML 生成。等靈光產品上線時，能力已經準備好了

零幺說：Google 內部也是類似模式，3～6 個月為周期收集產品需求

一年和一年

模型在變小，能力在變強，一年后，一個 200B 的模型，就能打贏今天的 1T

這里可能不是判斷了，我們實際在訓練中的模型就能看到這個趨勢了。類似摩爾定律，對基模目前可能是不到一年，同等能力對應的規模就可能可以壓縮一個數量級

但做 Agent、做應用的團隊等不了這一年

同一個「一年」，對模型廠商是技術迭代的周期，對應用公司是生死存亡的倒計時

千問 3.5 已經在驗證這個趨勢，397B 總參 17B 激活，在不少維度上打贏了上一代萬億參數模型。GLM-5 用 744B 總參 40B 激活拿到了 a16z 所說的「最好的開源模型」

在模型訓練中，零幺跟我講了一個他認為被嚴重低估的問題：過程獎勵

現在主流做法是 Agent 跑完整個任務后，看最終結果給一個獎勵信號。但如果 Agent 連續跑幾個小時，中間幾十上百步操作，最后才給一個「對」或「錯」，信號太稀疏，模型很難從中學到東西

百靈 2.5 在數學證明題上的進步，零幺認為很大程度來自逐步驗證：每一步推導都檢查對錯，整個過程就是結果。這跟 Agent 場景的需求結構一樣：長程執行，中間每一步都需要反饋

同時，他也很坦率地告訴我說，Agent 的過程獎勵怎么做，目前沒有成熟方案?！溉绻茉谶@個位置找到更好的想法，整個 Agent 訓練的效率會提一截」。

我發現，在聊到沒解決的問題時，零幺反而說得更細

關于思考模型和即時模型，零幺表示：各家現在優先卷思考模型，因為更能體現 AGI 上限，benchmark 卷得更猛。代價是即時模型被普遍忽視

「你會發現各家現在對應的非思考模型，能力就偏弱了」

長遠看一定會合到一起。但現階段分開做是也是合理的：兩種模型的上限還沒探清楚，合在一起反而會互相拖累

聊到最后，我們還說了件小事：這次百靈 2.5 的官方發布稿，是零幺用百靈 1T 模型寫的

「以前用 xxx 模型寫文檔，會蹦出來一堆很科幻的詞語，每次都要大改。這次用百靈寫，很多直接就可以用了」

我問：覺得百靈 2.5 寫出來的東西，具體好在哪
他想了想說：像一篇正常的文章，而不像一篇玄幻小說了

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.