337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

馬斯克也來站臺,中國團隊對AI底層架構動手術

0
分享至

作者 | 封華

編輯 | 魏曉

來自中國的Kimi,再一次引發了硅谷AI圈的注意。

3月16日,月之暗面Kimi發布了一項技術報告《Attention Residuals》(注意力殘差),重新設計了深度學習中核心的殘差連接結構。

報告發布后,引來了一眾企業家和AI大佬的圍觀。連續三天登上Twitter全球熱搜榜,主貼閱讀量超過 460萬,堪比一次模型重要版本發布。

OpenAI的“推理模型之父”、前OpenAI研究副總裁Jerry Tworek表示:“深度學習2.0要來了”。

馬斯克稱贊道:“Kimi的研究令人印象深刻(Impressive work from Kimi)”。隨后,Kimi進行了回應:“你的火箭造得也不錯!”

中外AI,在這一刻產生了惺惺相惜之感。


馬斯克在業內一向“口無遮攔”,曾嘲諷Anthropic大規模竊取訓練數據,也曾批評OpenAI成為“逐利公司”。只有真心認可,他才會不吝點贊。

這次馬斯克對Kimi大加贊賞,正是震驚于AI技術的突破。

Kimi提出的注意力殘差,旨在突破大模型架構中的瓶頸,改寫大模型訓練效率與成本曲線。

技術突破“炸場”的同時,月之暗面創始人楊植麟還成為英偉達年度大會GTC 2026,唯一受邀演講的中國大模型公司創始人。

在演講中,楊植麟沒有去講Kimi的用戶數,或是其他商業數據,而是解讀了一個核心問題:當算力基建的規模化(Scaling)已成為行業共識,我們到底該Scale什么?

當全球AI競爭進入深水區,Kimi的估值已狂飆至1200億元。從這次的技術突破,和楊植麟干貨滿滿的演講中,能看到Kimi對追求智能上限的執著。

新技術改變了什么?

Kimi這次的突破,不是“調參數”,而是“動地基”。

當前大多數大規模深度學習模型都在使用“殘差連接”的結構,以保證能訓練幾十層乃至上百層而不崩潰。

這個設計來自何愷明在2015年參與的ResNet論文,十年來不曾被動搖根基。

其簡單邏輯是:每一層的輸出=當前層的結果+前面數層的累加。每一層網絡在做完自己的計算之后,把自己的輸出和輸入加在一起,然后傳到下一層去再做計算。

這樣做的好處是,這樣一路累加下去,每一層都能“記住”前面所有層的信息。

但這個機制并不是完美的,在大模型PreNorm主流范式下,殘差連接中所有層的

貢獻都是等權累加。

這樣將信息進行“無差別疊加”,沒有任何有效機制,去判斷哪一層的信息更重要,哪一層的信息可以忽略。隨著層數的增加,早期層信息的重要性就會被稀釋。并且,后面的層想要產生影響,就必須輸出模長更大的激活值,這反過來又加劇了訓練的不穩定性。

就像咱們普通用戶在使用AI時,提示詞要盡量精準、簡練,如果事無巨細地進行長篇大論,反而增加了AI理解信息的難度。

AI訓練也是如此,重要信息被稀釋,并且計算效率較為低下,這是一種浪費和負擔。

Kimi團隊的最新技術報告提出一種全新方案——既然不想要“無差別累加”,那就讓網絡自己決定該提取什么信息。也就是,允許模型在每一層選擇性地關注此前各層的輸出,而不是簡單地進行求和。

這一創新不僅優化了計算效率,還顯著提升了大模型的訓練效果。報告顯示,經過改進的48B模型訓練效率提升了1.25倍。


Kimi的研究表明,當把動態、與輸入相關的注意力機制引入進來之后,模型不再是簡單地“全盤接收”信息,而是具備了“結構性判斷能力”,能夠更有選擇地抓住關鍵內容。

結果也很直接——改寫了大模型訓練效率與成本曲線。

Kimi團隊這次對慣性的大膽反思,瞄準的是那座最不起眼卻最承重的“地基”。這并非一次局部優化,而是有機會成為未來大模型架構里的“標配組件”。隨著驗證逐步展開,世界上其他AI團隊大概率會跟進類似思路,去探索新的架構路徑。

楊植麟此次在英偉達GTC 2026現場的演講,更將Kimi團隊的技術實力與獨特思考,第一次完整展示給硅谷核心技術圈。

對“祖傳技術”動刀

重構前沿范式

北京時間3月18日凌晨,楊植麟站在英偉達年度大會GTC 2026的現場,發表了主題為《How We Scaled Kimi K2.5》的演講,首次完整披露了Kimi的技術路線圖。

按照他講述的Kimi K2.5的進化邏輯,只有在“Token效率、長上下文、智能體集群”三個維度同時找到規模效應,才能實現遠超現狀的智能水平。

如果說三維邏輯是戰略,那么對三大底層技術的重構就是戰術。

楊植麟提出,行業目前普遍使用的很多技術標準,本質上是八九年前的產物,正逐漸成為大模型 Scaling 的瓶頸。

這也是本次演講的真正“硬核”所在,楊植麟直接勾勒出了下一代大模型的思考路徑:

要真正實現智能上限的突破,不是來自于對舊架構的修修補補,而是對優化器、注意力機制、殘差連接等底層基石的重構。


其一,優化器革命:從Adam到MuonClip。

在超大規模訓練中,Adam優化器在提升Token效率上的瓶頸日益凸顯,尋找更具 Token 效率的替代方案已成趨勢。

Kimi團隊在實驗中驗證了Muon優化器的潛力,但在擴展到萬億參數時遇到了“Logits爆炸”的難題。

對此,他們開出了自己的藥方:MuonClip。通過結合Newton-Schulz迭代并結合QK-Clip機制,他們不僅解決了穩定性問題,更實現了2倍于傳統AdamW的計算效率。

這一突破意義重大,在算力約束、成本高企的當下,誰能用更少的計算量榨取更多的智能,誰就掌握了通往AGI的速通卡。

其二,Kimi Linear:全注意力機制“終結者”。

楊植麟展示了基于KDA架構的Kimi Linear,一種混合線性注意力架構。它挑戰了“所有層必須使用全注意力”的慣例,通過優化遞歸存儲管理,在128K甚至1M的超長上下文中,將解碼速度提升了5到6倍。

這不僅是速度的提升,更是對注意力機制本質的思考:“按需分配”的注意力,才是不同場景下的務實選擇。

其三:殘差連接:從固定加法到注意力殘差

繼論文受到各方AI大佬圍觀之后,楊植麟再次在演講中介紹了這一技術突破。

針對已有十年歷史的殘差連接,Kimi引入Attention Residuals方案,將傳統的固定加法累加,替換為對前序層輸出的Softmax注意力。

這一改動,通過選擇性聚合信息,讓每一層都能獲得前面所有層中更有價值的信息,而不是淹沒在求和“噪聲”中。

之后,楊植麟提出了一項預判。他認為,未來的智能形態將從單智能體向動態生成的集群進化。Kimi K2.5引入的Orchestrator機制,能夠將復雜的長任務拆解給數十個子Agent并行處理,實現自協調的群體執行。

上述框架,并非零散的技術點疊加,而是一套從底層基石到上層應用的完整技術閉環,每一個環節都直指行業沿用近十年的技術標準的核心瓶頸。

跳出“中國版ChatGPT”框架

Kimi K2.5是全球用戶量最大的AI編程平臺Cursor唯一接入的開源模型,也是唯一的中國模型。也是全球最大的獨立AI搜索服務商Perplexity唯一接入的中國模型,開源的K2.5在跟OpenAI、Anthropic和Google的頂尖閉源模型同場競技。

一同起飛的,是Kimi商業化的躍遷:20天收入即超2025年全年。

K2.5發布后,Kimi通過其性能90%、價格七分之一的性價比優勢,在海外斬獲高速的收入增長,海外收入在總營收中占比已超過國內,海外API開放平臺日均訪問量翻10-20倍。

Kimi Claw于今年1月上線后,1月個人訂閱支付訂單環比暴增8280%,2月再漲123.8%。

業內認可之外,資本的追捧也極具說服力。

最近三個月,估值漲了4倍,融資超過10億美元,超過大模型同行IPO募資額。

最備受期待的,是Kimi“身份”的轉變——其已跳出“中國版ChatGPT”的狹窄框架,直接參與到了全球AI技術的底層創新。

楊植麟談到了 AI 研究范式的轉變,從中我們得以一窺,為什么Kimi能不斷地從“古老”技術中挖掘出新的突破?

他提到,十年前的研究往往更看重新想法的發表,但受限于算力資源,很難通過不同規模的實驗來驗證這些想法。而現在由于擁有了足夠的資源和“縮放階梯(Scaling Ladder)”,研究者可以進行嚴謹的規模化實驗,從而得出更自信、更可靠的結論。

楊植麟傳遞出的信息清晰而堅定:Kimi不想只做一個更好的模型,而是要做那個定義下一代模型架構的引領者:審視那些被沿用近十年的“舊技術”,嚴謹驗證,大膽重構,找到突破智能上限的下一個項關鍵技術。

Lanmeih/今日話題

你平時用Kimi嗎,感覺怎么樣?

咱們評論區聊聊~

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
戴維森絕殺+比分1-0,45歲鄭智率隊迎首勝,41歲陳濤率隊遭遇第2敗

戴維森絕殺+比分1-0,45歲鄭智率隊迎首勝,41歲陳濤率隊遭遇第2敗

側身凌空斬
2026-03-21 21:31:20
暴漲超20%,有商家暫停接單!廣州網友:想不到它會漲價

暴漲超20%,有商家暫停接單!廣州網友:想不到它會漲價

羊城攻略
2026-03-20 23:04:43
價格飆漲6000%!原研藥集體撤離中國的影響,開始出現了...

價格飆漲6000%!原研藥集體撤離中國的影響,開始出現了...

牛鍋巴小釩
2026-03-21 19:20:35
她陪毛主席11年終身未嫁,臨終前說了8個字,竟和主席同月同日離世

她陪毛主席11年終身未嫁,臨終前說了8個字,竟和主席同月同日離世

寄史言志
2026-03-21 17:06:11
沈夢辰杜海濤正式解綁:四年婚姻,各自安好!

沈夢辰杜海濤正式解綁:四年婚姻,各自安好!

背包旅行
2026-03-21 15:06:56
言承旭演唱會提詞器帶情緒指令引爭議,阿信回應:因言承旭害怕上臺、擔心情緒失控才幫其備注以控制情緒,并非劇本化表演

言承旭演唱會提詞器帶情緒指令引爭議,阿信回應:因言承旭害怕上臺、擔心情緒失控才幫其備注以控制情緒,并非劇本化表演

極目新聞
2026-03-21 11:10:09
女足亞洲杯日本1-0澳大利亞奪冠,浜野舞香世界波制勝

女足亞洲杯日本1-0澳大利亞奪冠,浜野舞香世界波制勝

懂球帝
2026-03-21 18:57:16
重慶一高校實驗室發生爆炸 警方:已出警處置

重慶一高校實驗室發生爆炸 警方:已出警處置

封面新聞
2026-03-21 20:28:06
上海德云社開業三天被舉報,只因社門口放了一大蒜形狀的咖啡杯子

上海德云社開業三天被舉報,只因社門口放了一大蒜形狀的咖啡杯子

蜜桔娛樂
2026-03-21 09:37:34
蹭飯260次后續:龐先生已后悔,發視頻道歉,4S店態度堅決不和解

蹭飯260次后續:龐先生已后悔,發視頻道歉,4S店態度堅決不和解

奇思妙想草葉君
2026-03-21 19:57:27
歌手跪地演唱時遭觀眾上臺辱罵,起身用話筒反擊后又參與圍毆,歌舞團負責人:意想不到,已報警處理

歌手跪地演唱時遭觀眾上臺辱罵,起身用話筒反擊后又參與圍毆,歌舞團負責人:意想不到,已報警處理

大風新聞
2026-03-21 16:53:30
銷售幫男子搖中“貴A·A88888”頂級“豹子號”車牌,兩人激動到當場大喊,網友直呼:黃金右手

銷售幫男子搖中“貴A·A88888”頂級“豹子號”車牌,兩人激動到當場大喊,網友直呼:黃金右手

極目新聞
2026-03-21 19:30:27
隨著日本1-0奪冠,亞洲杯獎金分配出爐:中國隊真少,亞足聯太摳

隨著日本1-0奪冠,亞洲杯獎金分配出爐:中國隊真少,亞足聯太摳

侃球熊弟
2026-03-21 19:27:39
女兒相中599元的鞋,娘仨在店門口糾結半小時咬牙買下,母親回應:女兒很懂事,舊鞋已穿到開膠,如果不買會很愧疚

女兒相中599元的鞋,娘仨在店門口糾結半小時咬牙買下,母親回應:女兒很懂事,舊鞋已穿到開膠,如果不買會很愧疚

揚子晚報
2026-03-21 17:07:50
特斯拉29億美元采購太陽能設備,三家中企入圍

特斯拉29億美元采購太陽能設備,三家中企入圍

芯智訊
2026-03-21 11:04:33
他是著名演員,從發病到去世僅20分鐘,主持人兒子比他更有名

他是著名演員,從發病到去世僅20分鐘,主持人兒子比他更有名

削桐作琴
2026-03-21 15:03:45
同仁堂年銷20億元“神藥” 遭清退,安宮牛黃丸為何院內無人買?

同仁堂年銷20億元“神藥” 遭清退,安宮牛黃丸為何院內無人買?

華夏時報
2026-03-20 21:50:07
家長注意了!這些全是“假牛奶”!別再整箱往家搬了!花錢還坑娃

家長注意了!這些全是“假牛奶”!別再整箱往家搬了!花錢還坑娃

觀察鑒娛
2026-03-21 12:39:12
阿拉伯國家譴責以色列

阿拉伯國家譴責以色列

參考消息
2026-03-21 21:46:09
“梅姨”模擬畫像與真人相似度不高?作者呼吁理性看待:嫌疑人精神壓力等會致長相與畫作有差別

“梅姨”模擬畫像與真人相似度不高?作者呼吁理性看待:嫌疑人精神壓力等會致長相與畫作有差別

紅星新聞
2026-03-21 18:42:54
2026-03-21 23:56:49
藍媒匯財經plus incentive-icons
藍媒匯財經plus
聚焦財經熱點解讀行業動態
670文章數 256關注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機器人出貨量第一!

頭條要聞

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

頭條要聞

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩寧終于涼了?出軌風波影響惡劣

財經要聞

通脹警報拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態度原創

親子
教育
健康
房產
軍事航空

親子要聞

寶媽必學,讓孩子警惕這種視覺和言語侵犯!

教育要聞

高考地理中的湖岸沉積

轉頭就暈的耳石癥,能開車上班嗎?

房產要聞

全城狂送1000杯咖啡!網易房產【早C計劃】,即刻啟動!

軍事要聞

特朗普:正考慮逐步降級對伊朗的軍事行動

無障礙瀏覽 進入關懷版