網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Kimi新架構(gòu)讓馬斯克嘆服！17歲高中生作者一戰(zhàn)成名

2026-03-17 14:47:09　來源: 量子位

北京舉報

分享至

克雷西發(fā)自凹非寺
量子位 | 公眾號 QbitAI

17歲高中生，以一作身份，在Kimi團隊把Ilya提出的設(shè)想，變成了現(xiàn)實。

Ilya之前有個預(yù)言，把按時間先后順序處理數(shù)據(jù)的LSTM網(wǎng)絡(luò)“旋轉(zhuǎn)90度”，也就是把時間軸換成模型深度軸，就變成了現(xiàn)在的殘差網(wǎng)絡(luò)。

Kimi團隊認(rèn)為，既然時間上的LSTM能對應(yīng)深度上的殘差，那后來淘汰了LSTM的“注意力機制”自然也可以照做。

他們新搞出的Attention Residuals技術(shù)，就相當(dāng)于把注意力機制也“旋轉(zhuǎn)了90度”。

用了這套新方法后，模型在計算當(dāng)前層時可以聰明地“回頭看”，根據(jù)需要自由決定去提取前面哪一層的信息。

這篇論文讓馬斯克也來圍觀，表示令人印象深刻。

除了馬斯克，這篇論文也引發(fā)了大神Karpathy的思考，直言我們對Attention is All You Need這篇Transformer開山之作的理解還是不夠。

這種新機制放到Kimi自家的Kimi Linear 48B大模型（3B激活參數(shù)）上驗證，訓(xùn)練效率提升25%，推理延遲增加不到2%。

殘差連接的“記憶負(fù)擔(dān)”

先回顧一下殘差連接的工作原理。

傳統(tǒng)做法是：第N層的輸出 = 第N層的計算結(jié)果 + 第N-1層的輸出。這樣一路累加下去，每一層都能“記住”前面所有層的信息。

問題來了，在大模型PreNorm主流范式下，殘差連接中所有層的貢獻都是等權(quán)累加。

就像一個“記憶力太好的人”，把所有經(jīng)歷都以相同權(quán)重存進大腦。貢獻被逐步稀釋，早期信息難以檢索，且大量層可被剪枝而損失微小，稱之為“PreNorm dilution problem”。

更麻煩的是，隱藏狀態(tài)的范數(shù)會隨著深度不斷增長。研究人員發(fā)現(xiàn)，在深層網(wǎng)絡(luò)中，這種unbounded growth會導(dǎo)致訓(xùn)練不穩(wěn)定。

月之暗面團隊換了個思路：既然問題出在“無差別累加”，那就讓網(wǎng)絡(luò)自己決定該回憶什么。

用注意力“選擇性回憶”

團隊觀察到一個有趣的對偶性：網(wǎng)絡(luò)的深度維度和序列的時間維度，本質(zhì)上是同構(gòu)的。

在Transformer處理序列時，用注意力機制讓當(dāng)前位置“選擇性關(guān)注”之前的位置。那么在深度維度上，為什么不能讓當(dāng)前層“選擇性關(guān)注”之前的層？

Attention Residuals就這么來的：

當(dāng)前層的可學(xué)習(xí)偽查詢向量作為query（learnable pseudo-query）
所有前層的輸出作為key和value
用注意力機制加權(quán)聚合

這樣一來，網(wǎng)絡(luò)可以學(xué)會哪些層的信息對當(dāng)前計算最重要，就多關(guān)注一點；不相關(guān)的層，權(quán)重自然降低。

但這帶來一個新問題：計算量爆炸。

如果一個100層的網(wǎng)絡(luò)，每一層都要對前面99層做full attention residual，復(fù)雜度是O(L2)，根本跑不動。

Block AttnRes：分塊壓縮

論文中的解決方案是Block AttnRes。

核心思想是把連續(xù)的若干層打包成一個block，對block內(nèi)部的輸出做壓縮，只保留一個“摘要向量”。

具體操作如下：

把L層網(wǎng)絡(luò)分成B個block，每個block包含若干層
每個block結(jié)束時，把block內(nèi)的信息壓縮成單個向量
后續(xù)層做attention時，只需要關(guān)注塊間表征+塊內(nèi)實時層輸出，而非全部L個層

這樣一來，attention的復(fù)雜度從O(L2)降到了O(L·B)，在實踐中B可以設(shè)得很小（論文用的是8-16）。

此外，團隊還做了數(shù)個工程優(yōu)化：緩存式流水線通信、序列分片預(yù)填充、KV 緩存粒度優(yōu)化等等。

Kimi Linear驗證：1.25倍效率提升

理論說得通，但真正讓人信服的是大規(guī)模驗證。

團隊在自家的Kimi Linear架構(gòu)上做了測試。這是一個采用線性注意力的大模型，總參數(shù)48B，激活參數(shù)3B（MoE架構(gòu)）。

同等計算預(yù)算下，Attention Residuals能獲得更好的下游性能；反過來說，達(dá)到相同性能需要的訓(xùn)練計算量減少了約20%，相當(dāng)于獲得了1.25倍的效率優(yōu)勢。

在具體任務(wù)上，數(shù)學(xué)推理（MATH、GSM8K）、代碼生成（HumanEval、MBPP）均持平或略優(yōu)，多語言理解的一致性也有所改善。

更重要的是，Attention Residuals是一個drop-in replacement，不需要修改網(wǎng)絡(luò)其他部分，直接替換殘差連接即可。

論文里還講到一個有意思的視角。

團隊把這項工作稱為“時間-深度對偶性”（time-depth duality）的應(yīng)用。

在他們看來，深度神經(jīng)網(wǎng)絡(luò)的“層”和循環(huán)神經(jīng)網(wǎng)絡(luò)的“時間步”，本質(zhì)上是都是對信息的迭代處理。

Transformer之所以成功，是因為用attention替代了RNN中固定的recurrence。

那么在深度維度上，是不是也該用attention替代固定的residual？

17歲高中生入列共同一作

更有意思的是，這篇讓馬斯克、Karpathy等人都為之一震的論文，共同一作之一是一名年僅17歲的高中生——陳廣宇（Nathan）。

另外兩名共同一作，分別是Kimi的關(guān)鍵人物之一、RoPE（旋轉(zhuǎn)位置編碼）的提出者蘇神（蘇劍林），以及Kimi Linear的第一作者張宇。

誠然Attention Residuals是團隊協(xié)作取得的成果，但一名高中生出現(xiàn)在這樣的團隊之中，還與兩位大神共列一作，已經(jīng)足夠震撼。

a16z創(chuàng)始人Marc Andreessen、Thinking Machines的聯(lián)創(chuàng)等人都關(guān)注了他的X賬號。

一年前才剛剛開始了解大模型的陳廣宇，是從北京的一場黑客松開始，一路走向硅谷的。

后來回國時，他選擇加入了Kimi。

經(jīng)手過月之暗面投資的奇績創(chuàng)壇（原YC中國）創(chuàng)始成員董科含，也曾在其個人公眾號上刊載過陳廣宇的一份自傳。

去年二月，北京的一場中學(xué)生黑客松上，陳廣宇展示了一個關(guān)于“人類第三只機械輔助手”的創(chuàng)新構(gòu)想——ThirdArm。

也正是這個項目，讓他結(jié)識了黑客松評委董科含，后者也成為了他的創(chuàng)業(yè)導(dǎo)師。

當(dāng)時，董科含追問他，未來是否會深耕這項技術(shù)，這促使他開始重新審視自己的職業(yè)方向。

隨后他入選了董科含發(fā)起的只有極少數(shù)人入選的青年計劃，開始接觸IOI（國際信息學(xué)奧林匹克）金牌得主及資深科研人員。

此前他曾嘗試經(jīng)營Shopify跨境電商店鋪、運營短視頻賬號，但經(jīng)過董科含的建議，他決定轉(zhuǎn)向理解時代的底層技術(shù)。

當(dāng)時還不知道Transformer是什么的他，在DeepSeek研究員袁境陽的指導(dǎo)下，利用Gemini作為輔助工具，通過研讀經(jīng)典論文、追蹤GitHub開源項目等方式逐步建立認(rèn)知。

有一次他在推特上分享了對一篇博客的反思后，獲得了作者的回復(fù)，這篇帖子也因此引起了一家硅谷AI初創(chuàng)公司CEO的關(guān)注。

該公司于2024年底成立，2025年初完成了800萬美元種子輪融資，資方背景涉及OpenAI與Anthropic。

在通過一項限時通宵完成的實驗測試后，他拿到了對方的錄用通知。

暑假期間，他前往舊金山開啟了為期七周的實習(xí)。其中前兩周，他負(fù)責(zé)定義并推進一個涉及144張H100顯卡的探索性項目。

在CEO直接指導(dǎo)下，他的工作延伸至運營層面，參與了招聘系統(tǒng)搭建、技術(shù)內(nèi)容輸出及融資策略討論，并獲得與早期投資者Vinod Khosla交流的機會。

在硅谷期間，他維持著高強度工作節(jié)奏，通過咖啡社交與英偉達(dá)工程師及初創(chuàng)創(chuàng)始人建立聯(lián)系。這次經(jīng)歷讓他將科研視為一種支撐創(chuàng)造的底層能力。

實習(xí)結(jié)束后，陳廣宇回到國內(nèi)，并于去年11月加入月之暗面。

把他吸引進去的，正是Kimi一直做的Flash Linear Attention這一類高效attention工作。

實際上，正是GitHub上的FLA項目，吸引了他對機器學(xué)習(xí)的興趣并被邀請加入Kimi團隊。

也正是順著這條線，他開始一路往更底層鉆，從讀論文、看實現(xiàn)，到研究 Triton kernel、理解attention為什么能被這樣重寫、這樣加速。

到了月之暗面，這條路也算是繞了一圈又落回原點——

他最初是被底層技術(shù)吸引，最后做的也正是最底層、最核心的那部分事。

相比于講一個“少年天才一路開掛”的故事，陳廣宇的經(jīng)歷更像是另一種成長路徑——

先被時代最前沿的技術(shù)擊中，再一步步把興趣磨成能力，把能力帶到真正的大模型研發(fā)現(xiàn)場里。

論文地址：
https://github.com/MoonshotAI/Attention-Residuals/
[1]https://mp.weixin.qq.com/s/gRR99pEDWb5qsk2a2hwe2w
[2]https://nathanchen.me/public/About%20me.html

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.