網易首頁 > 網易號 > 正文申請入駐

馬斯克下場點贊！Kimi 這篇論文撬動了大模型的「祖傳地基」

2026-03-18 17:55:34　來源: AppSo

廣東舉報

分享至

同樣的算力，同樣的數據，憑什么效果不一樣？大多數人的直覺是：模型更大、數據更好、工程師更厲害。但 Kimi 給出了一個更出人意料的答案。

3 月 16 日，月之暗面 Kimi 發布了一項重磅技術報告《Attention Residuals》（注意力殘差）。

這項技術針對幾乎所有現代大模型都在使用的殘差連接結構進行了改造，并在實驗中證明，用同樣多的算力，新方法訓練出的模型效果相當于基線模型花費 1.25 倍算力才能達到的效果。

報告發布后，也毫無意外得到了許多硅谷頂尖 AI 人物的點贊背書。

附 GitHub 開源地址：github.com/MoonshotAI/Attention-Residuals

比如馬斯克通過社交媒體表示「Impressive work from Kimi（令人印象深刻的工作）」OpenAI o1 主要發明者 Jerry Tworek 稱其為「深度學習 2.0」的開端。

前 OpenAI 聯創 Andrej Karpathy 說「看來我們還沒把『Attention is All You Need』這句話按字面意思理解透。」但比起這些夸獎，技術論文背后的信號或許更值得關注：深度學習最基礎的范式，正在發生變化。

十年沒人動過的地基，被撬動了

過去兩年，大模型的競爭主要在「上層建筑」展開：更好的注意力變體、更聰明的 MoE 路由策略、更精巧的對齊方法，大家都在 Transformer 這棟大樓的高層精裝修。

唯獨有一樣東西，從 2015 年 ResNet 論文發表以來，幾乎沒人動過：殘差連接（Residual Connections）。

要理解這項技術，得先知道大模型內部的基本結構。

現代大模型，其實都是由很多層神經網絡疊加而成的，少則幾十層，多則上百層。信息從底部輸入，一層一層往上傳遞，每一層都對信息做一次加工，最終在頂部輸出結果。

可以把它想象成一條流水線上的工人：原材料從第一道工序進來，每個工人對它加工一遍，再傳給下一個，最終出來成品。問題是，流水線越長，越難訓練。

假設第 50 道工序的工人犯了錯，你想糾正他，就得把這個「糾錯信號」一路往回傳，經過 49 個工人才能傳到第 1 個。傳著傳著，信號就消失了，底層的工人根本不知道自己哪里出了問題。

為了讓這么深的網絡能夠訓練起來，知名學者何愷明團隊在 2015 年發表了一篇題為《Deep Residual Learning for Image Recognition》的論文，引入了一個關鍵設計，叫做殘差連接（Residual Connections）：

每一層在加工信息的同時，還會保留一條「直通道」，把原始輸入原封不動地加到加工結果上，再往下傳。這條直通道讓梯度在反向傳播時可以繞過中間的變換，一路流回底層，從根本上解決了深層網絡難以訓練的問題。

比較通俗的理解是，在每道工序旁邊加一條「直通道」，把原材料原封不動地繞過這道工序，直接和加工結果合并，再往下傳。這樣糾錯信號就可以沿著直通道一路暢通無阻地傳回底層，不會消失。

這篇論文后來成為計算機視覺乃至整個深度學習領域引用次數最多的論文之一，殘差連接也沿用至今，是幾乎所有大模型的基石。

殘差連接雖然好用，但它做信息聚合的方式非常粗暴：把所有前面層的輸出，無差別地等權相加。

還是用流水線來比喻。到了第 51 道工序，這個工人手里拿到的，是前面 50 道工序所有產出物的等量混合，每道工序的產出各占一份，不多不少。他沒有辦法說「我想多要一點第 3 道工序的原料」，也沒有辦法說「第 20 道工序的東西對我沒用，少給我一點」。

這帶來了一個名為 PreNorm 稀釋的實際問題：隨著網絡越來越深，累積疊加的信息越來越多，每一層自己的貢獻在龐大的總量里越來越微不足道。越靠后的層，想要讓自己的聲音被「聽見」，就得輸出越來越大的數值，否則就會被淹沒。

結果就是，很多中間層其實沒在認真干活。已有研究發現，大模型里相當一部分層直接刪掉，效果幾乎不變，這說明這些層的貢獻實際上極為有限。

大多數團隊早就知道這個問題，選擇繞開它，轉而在在現有架構上疊加更好的數據配比、更精巧的訓練策略、更長的上下文窗口。這些工作當然有價值，但本質上是在一個已有的技術框架內做增量優化。

Kimi 選擇的是一條更孤獨也更難的路：回到最基礎的結構，用第一性原理重新審視那些「理所當然」的設計。

今天凌晨，Kimi 創始人楊植麟在 GTC 2026 演講中提到：「行業目前普遍使用的很多技術標準，本質上是八九年前的產物，正逐漸成為 Scaling 的瓶頸。」

楊植麟認為，要推動大模型智能上限的持續突破，必須對優化器、注意力機制及殘差連接等底層基石進行重構。

一次優雅的「旋轉」

Kimi 團隊這篇論文的核心突破，其實也來自一個優雅的類比發現。

處理文字序列時，早期的循環神經網絡（RNN）也有類似的額外問題：記性差。它讀完一整段話之后，早期讀到的內容會被后來的內容不斷覆蓋，等讀到最后一個詞，前幾句說了什么已經模糊了。

后來 Transformer 用注意力機制解決了這個問題，相當于給模型配了一張「全文筆記」，處理每個詞的時候，都可以翻回去查任意一個之前出現過的詞，而且查哪里、查多少，由當前的內容自己決定。

研究人員發現，殘差連接在深度方向上碰到的問題，和 RNN 在時間方向上碰到的問題，數學結構完全一樣。換句話說，把 Transformer 想象成一張二維的網格：

橫軸是序列方向，一句話里從左到右的每個詞；縱軸是深度方向，從底層到頂層的每一層網絡。傳統的注意力機制是沿著橫軸工作的，處理某個詞時去查同一層里其他詞的信息。

而 Attention Residuals 做的事情，就是把完全相同的機制轉到縱軸上去，處理某一層時去查前面所有層的輸出，決定要參考哪些層、參考多少。操作對象從「同一層里的不同詞」變成了「同一個詞在不同層里的狀態」，機制本身一模一樣，好比方向轉了 90 度。

既然注意力機制解決了序列方向的問題，旋轉一下搬到深度方向上，同樣有效。

這里有一個更深層的理論發現值得一提。研究人員通過數學分析發現，過去十年里所有對殘差連接的改進，包括標準殘差、Highway 網絡、mHC 等各種變體，在數學上其實都是同一件事的不同形式，都等價于某種「深度方向的線性注意力」。換句話說，大家一直在朝同一個方向努力，只是當時沒意識到。

而 AttnRes 的核心思路在于，把注意力機制從「處理文字序列」的維度，移植到「跨越網絡深度」的維度上。

具體做法是，給每一層配備一個小小的「查詢向量」，就像給每道工序的工人配了一張需求單。工人在開工前，先拿著需求單去翻所有前面工序的產出，根據相關度算出一套取用比例，再按這個比例把需要的原料混合起來。

這樣一來，每一層不再是被動接受所有前面層輸出的等權疊加，而是主動、有選擇性地決定要從哪些層提取多少信息，比例還會根據當前任務的內容動態變化。每層只新增一個向量和一個歸一化操作，參數量的增加對整個模型來說幾乎可以忽略不計。

為了保證訓練初期穩定，這個查詢向量必須初始化為全零，相當于讓工人一開始什么偏好都沒有、平等對待所有前序產出，等訓練推進了再慢慢形成自己的判斷。

值得一提的是，研究人員也測試過一個更激進的版本：讓查詢向量不再是固定參數，而是根據每一層當前的輸入內容動態生成。這個版本效果確實更好，損失值進一步下降。

但最終沒有采用，原因是推理時這種方式需要順序讀取內存，會增加延遲。這個取舍體現了貫穿整篇論文的工程哲學，理論上更優的方案，不一定是實用上應該選的方案。

大模型的新技術，最后都得過這一關

全量 AttnRes 在小規模實驗中很好用，但一到大規模訓練就遇到了麻煩。

它需要每一層都能訪問所有前面層的輸出。模型有一百多層，每層的輸出都得保存在內存里，還要在不同計算節點之間來回傳輸，內存和通信開銷隨層數線性增長，在大模型上根本承受不起。

Kimi 團隊的解法很實在：Block AttnRes。把網絡所有層劃分為若干個 Block（48B 模型中分了 8-9 個 Block，每個 Block 約 6 層），Block 內部沿用傳統殘差連接，Block 之間使用 softmax 注意力。打個比方——不必給每層樓都裝電梯，在關鍵樓層之間架設快速通道就夠了。

這樣，需要保存和傳輸的數據量，從「所有層的數量」降低到「塊的數量」，開銷大幅縮小。實驗發現，分成約 8 個塊就能保留全量方法絕大部分的性能提升。

在具體的工程實現上，團隊還做了兩項優化。

訓練端設計了跨階段緩存機制，在流水線并行訓練中每次切換階段時只傳輸新增的那一小部分塊數據，而不是每次都把全部歷史重新傳一遍，實測整體訓練額外開銷不超過 4%。

推理端設計了兩階段計算策略，把一個塊內所有層的查詢打包成一次矩陣運算統一處理，把重復的內存訪問攤銷掉，最終推理延遲增加不超過 2%。

那實驗效果怎么樣呢？研究人員測了五個不同規模的模型。

結果顯示，Block AttnRes 在全部規模上均以更低的驗證損失領先于基線，且改善幅度隨規模增大而穩定保持。按擬合曲線推算，在相同的計算量下，Block AttnRes 相當于基線模型用 1.25 倍算力才能達到的效果。

在 48B 參數（3B 激活）規模的 Kimi Linear 架構實驗中，Block AttnRes 展現了極強的泛化性：在全部 15 項主流評測基準中，其表現均持平或優于 PreNorm 基線模型。

例如，在博士級科學推理 GPQA-Diamond 上實現了 7.5% 的飛躍，在數學 Math (+3.6%) 及代碼生成 HumanEval (+3.1%) 任務中也錄得了顯著增益。

從訓練過程來看，基線模型的各層輸出數值隨深度單調增大，印證了 PreNorm 稀釋問題；而 AttnRes 的各層輸出數值在塊邊界處得到重置，呈現周期性變化，各層梯度分布也更加均勻，說明更多的層真正參與到了有效的學習中。

此外，研究人員還可視化了訓練后模型學到的注意力權重，發現了幾個有趣的規律。

每一層仍然最依賴直接前一層的輸出，局部性依然是主要的信息流通方式。但同時出現了一些跳躍性的連接，比如某些層會穩定地回溯到很早期的層，還有些層會特別關注最初的詞嵌入輸出。

另一個規律是，注意力層和 MLP 層的「回望」模式不同：注意力層傾向于關注更廣泛的歷史，MLP 層則更依賴近鄰層。這與兩者在模型中的功能分工是吻合的。

AttnRes 還帶來了一個對未來模型設計有參考價值的發現。研究人員在固定總計算量和參數量的前提下，枚舉了 25 種不同的深度與寬度組合，對比基線模型和 AttnRes 各自偏好的最優架構。

結果發現，標準殘差連接偏好「更寬、層數更少」的模型，而 AttnRes 的最優點偏向「更窄、層數更多」的模型。這說明 AttnRes 能夠更有效地利用深度，讓每增加一層都真正產生價值，而不是讓深度變成一種邊際效益遞減的堆砌。

這個發現的含義不止于此。它意味著 AttnRes 不只是在原有架構上打了一個補丁，而是從根本上改變了網絡深度的利用效率，也為未來設計大模型時如何分配深度與寬度的資源提供了新的參考依據。

楊植麟曾提到，十年前不是沒有好想法，而是沒有算力去驗證。現在有了足夠的資源和「縮放階梯（Scaling Ladder）」，那些被擱置的問題才終于能被認真答一遍。

大佬點贊的背后，是一個時代在轉彎

一個中國團隊在最底層的架構創新上獲得硅谷頂級人物的實質性認可，這件事本身十分罕見，他們認可的不只是論文成果本身，更在于Kimi 這篇論文指向了一個全新的方向：優化已經從 attention、MoE 這些上層模塊，深入到了最底層的殘差連接。

在 GTC 2026 演講中，楊植麟還披露了一連串底層技術創新：MuonClip 優化器實現了相比 AdamW 2 倍的計算效率提升——要知道 Adam 優化器自 2014 年以來幾乎未被撼動，屬于深度學習的「不可觸碰之物」；Kimi Linear（KDA 架構）在 128K 到百萬級超長上下文下實現 5-6 倍的解碼加速；Vision RL 的跨模態訓練甚至讓純文本 benchmark 也提升了約 2.1%。

楊植麟把這些創新概括為三個維度的 Scaling 框架：Token 效率 × 長上下文 × Agent Swarms。

「當前的 Scaling 已經不再是單純的資源堆砌，而是要在計算效率、長程記憶和自動化協作上同時尋找規模效應。」

一家公司，同時在優化器、殘差連接、注意力架構、跨模態訓練這些底層戰場上全線推進，這種打法在行業里相當特立獨行。

這也是為什么 Jerry Tworek 會說出「深度學習 2.0」這樣的判斷。當然不是說 Attention Residuals 這篇論文就能顛覆一切，更多是它代表了一種方法論的回歸：不再滿足于在已有框架上修修補補，去重新審視那些被所有人當作「已解決問題」的基礎設施。

如果殘差連接可以被重新設計，那么 Adam 優化器呢？層歸一化呢？位置編碼呢？深度學習的基礎范式本身正在發生變化，這扇門一旦推開，后面的故事就不再是線性外推能預測的了。

Karpathy 那句「Attention is All You Need 還沒被理解透」的感慨，大概也是這個意思。

過去幾年，中國 AI 團隊的貢獻更多集中在工程落地和應用創新上，在底層架構理論方面的原創性突破相對稀缺。Kimi 這篇論文走的是一條完全不同的路線——一個統一的理論框架，一個優雅的工程實現，加上嚴謹的大規模實驗驗證。

當然，Kimi 這篇論文還有留下不少需要解決的問題。論文的大規模驗證是在 48B 總參數（3B 激活參數）的模型上完成的，這個規模放在今天的第一梯隊里并不算大。在真正的千億乃至萬億參數模型上，1.25 倍的等效優勢能否穩住，目前還是個問號。

同時論文展示的也只是預訓練階段的收益，經過指令微調、RLHF 等后訓練步驟后，AttnRes 的優勢是否會被稀釋，缺乏數據。

但話說回來，這些局限恰恰也是想象力的來源。一個僅需約 100 行代碼改動、增加不到 4% 訓練開銷的輕量修改，就能在 48B 規模上帶來這樣的提升。

當它被應用到更大規模的下一代模型上時，收益的天花板在哪里，誰也說不準。

Attention Residuals 抬高了 Token 效率的天花板，Kimi Linear 拓展了長上下文的邊界，Agent Swarms 指向智能體協作的未來。當這三條技術線在下一代模型中匯合，呈現出的可能就是新的范式轉變。

在 AI 這座通天塔的工程上，所有人都在爭著往上添磚加瓦，而 Kimi 低頭往路基重重地鑿了一鍬，恰好撬動了深度學習的地基。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.