網易首頁 > 網易號 > 正文申請入駐

馬斯克也來站臺，中國團隊對AI底層架構動手術

2026-03-18 20:56:00　來源: 藍媒匯財經plus

天津舉報

分享至

作者 | 封華

編輯 | 魏曉

來自中國的Kimi，再一次引發了硅谷AI圈的注意。

3月16日，月之暗面Kimi發布了一項技術報告《Attention Residuals》（注意力殘差），重新設計了深度學習中核心的殘差連接結構。

報告發布后，引來了一眾企業家和AI大佬的圍觀。連續三天登上Twitter全球熱搜榜，主貼閱讀量超過 460萬，堪比一次模型重要版本發布。

OpenAI的“推理模型之父”、前OpenAI研究副總裁Jerry Tworek表示：“深度學習2.0要來了”。

馬斯克稱贊道：“Kimi的研究令人印象深刻（Impressive work from Kimi）”。隨后，Kimi進行了回應：“你的火箭造得也不錯！”

中外AI，在這一刻產生了惺惺相惜之感。

馬斯克在業內一向“口無遮攔”，曾嘲諷Anthropic大規模竊取訓練數據，也曾批評OpenAI成為“逐利公司”。只有真心認可，他才會不吝點贊。

這次馬斯克對Kimi大加贊賞，正是震驚于AI技術的突破。

Kimi提出的注意力殘差，旨在突破大模型架構中的瓶頸，改寫大模型訓練效率與成本曲線。

技術突破“炸場”的同時，月之暗面創始人楊植麟還成為英偉達年度大會GTC 2026，唯一受邀演講的中國大模型公司創始人。

在演講中，楊植麟沒有去講Kimi的用戶數，或是其他商業數據，而是解讀了一個核心問題：當算力基建的規模化（Scaling）已成為行業共識，我們到底該Scale什么？

當全球AI競爭進入深水區，Kimi的估值已狂飆至1200億元。從這次的技術突破，和楊植麟干貨滿滿的演講中，能看到Kimi對追求智能上限的執著。

新技術改變了什么？

Kimi這次的突破，不是“調參數”，而是“動地基”。

當前大多數大規模深度學習模型都在使用“殘差連接”的結構，以保證能訓練幾十層乃至上百層而不崩潰。

這個設計來自何愷明在2015年參與的ResNet論文，十年來不曾被動搖根基。

其簡單邏輯是：每一層的輸出=當前層的結果+前面數層的累加。每一層網絡在做完自己的計算之后，把自己的輸出和輸入加在一起，然后傳到下一層去再做計算。

這樣做的好處是，這樣一路累加下去，每一層都能“記住”前面所有層的信息。

但這個機制并不是完美的，在大模型PreNorm主流范式下，殘差連接中所有層的

貢獻都是等權累加。

這樣將信息進行“無差別疊加”，沒有任何有效機制，去判斷哪一層的信息更重要，哪一層的信息可以忽略。隨著層數的增加，早期層信息的重要性就會被稀釋。并且，后面的層想要產生影響，就必須輸出模長更大的激活值，這反過來又加劇了訓練的不穩定性。

就像咱們普通用戶在使用AI時，提示詞要盡量精準、簡練，如果事無巨細地進行長篇大論，反而增加了AI理解信息的難度。

AI訓練也是如此，重要信息被稀釋，并且計算效率較為低下，這是一種浪費和負擔。

Kimi團隊的最新技術報告提出一種全新方案——既然不想要“無差別累加”，那就讓網絡自己決定該提取什么信息。也就是，允許模型在每一層選擇性地關注此前各層的輸出，而不是簡單地進行求和。

這一創新不僅優化了計算效率，還顯著提升了大模型的訓練效果。報告顯示，經過改進的48B模型訓練效率提升了1.25倍。

Kimi的研究表明，當把動態、與輸入相關的注意力機制引入進來之后，模型不再是簡單地“全盤接收”信息，而是具備了“結構性判斷能力”，能夠更有選擇地抓住關鍵內容。

結果也很直接——改寫了大模型訓練效率與成本曲線。

Kimi團隊這次對慣性的大膽反思，瞄準的是那座最不起眼卻最承重的“地基”。這并非一次局部優化，而是有機會成為未來大模型架構里的“標配組件”。隨著驗證逐步展開，世界上其他AI團隊大概率會跟進類似思路，去探索新的架構路徑。

楊植麟此次在英偉達GTC 2026現場的演講，更將Kimi團隊的技術實力與獨特思考，第一次完整展示給硅谷核心技術圈。

對“祖傳技術”動刀

重構前沿范式

北京時間3月18日凌晨，楊植麟站在英偉達年度大會GTC 2026的現場，發表了主題為《How We Scaled Kimi K2.5》的演講，首次完整披露了Kimi的技術路線圖。

按照他講述的Kimi K2.5的進化邏輯，只有在“Token效率、長上下文、智能體集群”三個維度同時找到規模效應，才能實現遠超現狀的智能水平。

如果說三維邏輯是戰略，那么對三大底層技術的重構就是戰術。

楊植麟提出，行業目前普遍使用的很多技術標準，本質上是八九年前的產物，正逐漸成為大模型 Scaling 的瓶頸。

這也是本次演講的真正“硬核”所在，楊植麟直接勾勒出了下一代大模型的思考路徑：

要真正實現智能上限的突破，不是來自于對舊架構的修修補補，而是對優化器、注意力機制、殘差連接等底層基石的重構。

其一，優化器革命：從Adam到MuonClip。

在超大規模訓練中，Adam優化器在提升Token效率上的瓶頸日益凸顯，尋找更具 Token 效率的替代方案已成趨勢。

Kimi團隊在實驗中驗證了Muon優化器的潛力，但在擴展到萬億參數時遇到了“Logits爆炸”的難題。

對此，他們開出了自己的藥方：MuonClip。通過結合Newton-Schulz迭代并結合QK-Clip機制，他們不僅解決了穩定性問題，更實現了2倍于傳統AdamW的計算效率。

這一突破意義重大，在算力約束、成本高企的當下，誰能用更少的計算量榨取更多的智能，誰就掌握了通往AGI的速通卡。

其二，Kimi Linear：全注意力機制“終結者”。

楊植麟展示了基于KDA架構的Kimi Linear，一種混合線性注意力架構。它挑戰了“所有層必須使用全注意力”的慣例，通過優化遞歸存儲管理，在128K甚至1M的超長上下文中，將解碼速度提升了5到6倍。

這不僅是速度的提升，更是對注意力機制本質的思考：“按需分配”的注意力，才是不同場景下的務實選擇。

其三：殘差連接：從固定加法到注意力殘差

繼論文受到各方AI大佬圍觀之后，楊植麟再次在演講中介紹了這一技術突破。

針對已有十年歷史的殘差連接，Kimi引入Attention Residuals方案，將傳統的固定加法累加，替換為對前序層輸出的Softmax注意力。

這一改動，通過選擇性聚合信息，讓每一層都能獲得前面所有層中更有價值的信息，而不是淹沒在求和“噪聲”中。

之后，楊植麟提出了一項預判。他認為，未來的智能形態將從單智能體向動態生成的集群進化。Kimi K2.5引入的Orchestrator機制，能夠將復雜的長任務拆解給數十個子Agent并行處理，實現自協調的群體執行。

上述框架，并非零散的技術點疊加，而是一套從底層基石到上層應用的完整技術閉環，每一個環節都直指行業沿用近十年的技術標準的核心瓶頸。

跳出“中國版ChatGPT”框架

Kimi K2.5是全球用戶量最大的AI編程平臺Cursor唯一接入的開源模型，也是唯一的中國模型。也是全球最大的獨立AI搜索服務商Perplexity唯一接入的中國模型，開源的K2.5在跟OpenAI、Anthropic和Google的頂尖閉源模型同場競技。

一同起飛的，是Kimi商業化的躍遷：20天收入即超2025年全年。

K2.5發布后，Kimi通過其性能90%、價格七分之一的性價比優勢，在海外斬獲高速的收入增長，海外收入在總營收中占比已超過國內，海外API開放平臺日均訪問量翻10-20倍。

Kimi Claw于今年1月上線后，1月個人訂閱支付訂單環比暴增8280%，2月再漲123.8%。

業內認可之外，資本的追捧也極具說服力。

最近三個月，估值漲了4倍，融資超過10億美元，超過大模型同行IPO募資額。

最備受期待的，是Kimi“身份”的轉變——其已跳出“中國版ChatGPT”的狹窄框架，直接參與到了全球AI技術的底層創新。

楊植麟談到了 AI 研究范式的轉變，從中我們得以一窺，為什么Kimi能不斷地從“古老”技術中挖掘出新的突破？

他提到，十年前的研究往往更看重新想法的發表，但受限于算力資源，很難通過不同規模的實驗來驗證這些想法。而現在由于擁有了足夠的資源和“縮放階梯（Scaling Ladder）”，研究者可以進行嚴謹的規模化實驗，從而得出更自信、更可靠的結論。

楊植麟傳遞出的信息清晰而堅定：Kimi不想只做一個更好的模型，而是要做那個定義下一代模型架構的引領者：審視那些被沿用近十年的“舊技術”，嚴謹驗證，大膽重構，找到突破智能上限的下一個項關鍵技術。

Lanmeih/今日話題

你平時用Kimi嗎，感覺怎么樣？

咱們評論區聊聊~

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

硅谷500億巨頭翻車現場！Cursor被扒套殼Kimi，中國開源上大分

新智元 2026-03-21 12:38:50
23 跟貼 23
黃仁勛，開啟智元（Token）時代

新智元 2026-03-20 12:05:10
14 跟貼 14

馬斯克：3年內機器人超越頂尖醫生

財聯社 2026-01-09 15:31:35
2 跟貼 2

黃仁勛GTC直言：現在是OpenClaw的時代，SaaS都將變AgaaS

機器之心Pro 2026-03-17 17:22:21
0 跟貼 0
人活著的唯一理由是善良

葉檀財經 2026-02-01 17:07:04
0 跟貼 0

馬斯克坦言智能密度被低估100倍

機器之心Pro 2026-01-07 18:40:30
0 跟貼 0

英偉達首臺DGX GB300，老黃親自登門送給他

量子位 2026-03-19 15:50:27
2 跟貼 2
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
9 跟貼 9

馬斯克拿1萬億工資，為什么大家都覺得超值

雷科技 2025-11-08 14:17:34
5 跟貼 5
排面拉滿！馬斯克一周兩次點名Kimi，國產AI真的贏麻了

雷科技 2026-03-21 14:54:07
1 跟貼 1
馬斯克：AI 將具備自主迭代能力！無需人類參與，最遲明年實現

知了3C 2026-03-20 11:05:14
17 跟貼 17
馬斯克的小目標：星艦10000發/年，太空AI算力1太瓦/年

量子位 2026-02-08 23:37:12
10 跟貼 10
微軟大刀闊斧重組AI部門

虎嗅APP 2026-03-21 06:00:04
1 跟貼 1
在四五年內，在太空運行大規模AI將比地面更劃算

每日經濟新聞 2026-01-22 12:48:26
3 跟貼 3
專訪OpenAI首席科學家：我們離“AI自己做研究”有多遠？

DeepTech深科技 2026-03-21 22:57:35
0 跟貼 0
視觸覺仿生指尖落地，緯鈦機器人切入具身智能核心賽道

鈦媒體APP 2026-03-19 23:23:09
0 跟貼 0
貝佐斯創業，馬斯克嘲笑，兩人的恩怨糾葛20年

量子位 2025-11-22 12:44:22
0 跟貼 0
別急著教AI開車，先讓它看懂世界

虎嗅APP 2026-03-21 17:36:05
0 跟貼 0
陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0
五八智能四足機器人平臺Q20A，適用于千行百業

量子位 2025-09-30 15:35:41
0 跟貼 0
如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
從經歷到知識：UIUC、清華PlugMem如何重構Agent記憶

新智元 2026-03-21 19:19:12
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
拒絕智能手機，炮轟ChatGPT，沒有他就沒有今天的互聯網

DeepTech深科技 2025-12-26 18:07:26
0 跟貼 0
行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
高通萬衛星談終端大模型優勢：個性化與數據推理

量子位 2025-12-11 03:38:41
0 跟貼 0
陶哲軒：AI看似在推理，其實是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0
機器人管家Figure 03來了，承包一切家務！

量子位 2025-10-11 10:13:00
0 跟貼 0
行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
氫能源車，是行走的TNT還是電動車的終結者？

基地邊緣BaseEdge 2026-03-18 01:33:45
1 跟貼 1
馬斯克跳舞視頻流出，內容極其炸裂，果然大佬的品味不一般

樂呵指南 2026-03-21 13:10:09
1 跟貼 1
“媽，門口要錢，我們就不進去看你了”，游客在壺口瀑布外拍視頻被投訴侵權，山西壺口瀑布景區：事發地是陜西壺口瀑布，我們也是受害者

觀威海 2026-03-18 14:47:02
34645 跟貼 34645
歐盟急眼了，想逼中國轉讓核心技術！中國能答應嗎？

二叔胡侃 2026-03-21 10:53:44
0 跟貼 0
馬斯克4秒掙的錢相當于普通人一年的收入

每日經濟新聞 2026-01-21 00:05:31
1 跟貼 1
馬斯克乘坐特斯拉新車Cybercab，取消了方向盤、踏板和后視鏡

樂呵指南 2026-03-21 13:09:53
1 跟貼 1
模型飛機試飛，鏡頭一轉發現事不簡單，美女吃了熊心豹子膽

美妙一籮筐 2026-03-20 11:43:33
0 跟貼 0
79歲老奶奶在病房一槍崩了自己老伴... 被警察包圍她卻說：我不后悔！

英國那些事兒 2026-01-30 23:26:58
277 跟貼 277
高端獵手狩獵有招，竟以馬斯克形式現身，這玩法真夠騷氣

搞笑嘻哈哈 2026-03-21 00:00:00
0 跟貼 0
全球龍蝦批量黑化！Meta2小時災難擊穿硅谷心臟，OpenClaw反噬來襲

新智元 2026-03-21 10:11:37
36 跟貼 36

藍媒匯財經plus

聚焦財經熱點解讀行業動態

670文章數 256關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

教育

健康

房產

軍事航空

手機 / 數碼

房產 / 家居

馬斯克也來站臺，中國團隊對AI底層架構動手術

宇樹招股書拆解，人形機器人出貨量第一！

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

誰在決定字母哥未來？

田栩寧終于涼了？出軌風波影響惡劣

通脹警報拉響，加息潮要來了？

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態度原創

寶媽必學，讓孩子警惕這種視覺和言語侵犯！

高考地理中的湖岸沉積

轉頭就暈的耳石癥，能開車上班嗎？

全城狂送1000杯咖啡！網易房產【早C計劃】，即刻啟動！

特朗普:正考慮逐步降級對伊朗的軍事行動

伊朗發射3800公里射程的導彈最令美軍戰栗的細節披露

伊朗發射3800公里射程的導彈最令美軍戰栗的細節披露

小鵬汽車2025年Q4盈利凈賺3.8億全年營收767億