337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

估值1200億!Kimi新架構爆改Transformer,算力成本直降

0
分享至



在AI技術迭代的浪潮里,總有一些基礎設計像空氣一樣,重要卻被長期忽視。2015年何愷明提出的殘差連接,就是這樣的存在——它支撐著從ResNet到Transformer的所有深度模型,讓AI能堆到幾十上百層而不 “訓練崩潰”。可就在2026年初,DeepSeek與Kimi先后對它動刀,連馬斯克、Andrej Karpathy都紛紛點贊,一場關于AI信息流動的底層革命,正在悄然發生。



一、殘差連接:AI的 “信息高速公路”,藏著十年頑疾

要讀懂這場革命,得先搞懂殘差連接到底是什么。

你可以把大模型的Transformer架構,想象成一支幾十人排成的 “傳話小組”:每個人(對應模型的一層)聽完前面所有人的話,自己加工一句,再原封不動傳給下一個人。傳統殘差連接的規則很簡單:輸出=上一層輸入 + 本層加工結果(數學式:hl=hl?1+f(hl?1))。

它的偉大之處,在于解決了深度網絡的 “梯度消失” 難題 —— 就像給信息和糾錯信號修了一條 “高速公路”,讓梯度能直接從輸出層傳回輸入層,不用在層層計算中衰減,讓深層模型訓練成為可能。從ResNet到GPT、Claude,再到國內所有主流大模型,這套設計沿用了整整十年,成了深度學習的 “公理”。

但這套 “等權累加” 的規則,藏著三個致命問題,隨著模型層數越來越多,問題愈發凸顯:

不能挑著聽:每一層只能全盤接收前面所有層的信息,不管有用沒用,無法自主篩選重點;

信息被稀釋:層數越多,前面的關鍵信息越容易被后面的新內容“淹沒”,AI聊著聊著就忘了最初的需求,做復雜推理時更是抓不住核心;

內容越堆越亂:后面的層必須不斷疊加信息,才能讓自己的貢獻被看到,導致信息冗余、訓練容易失控。

過去十年,不是沒人想改。有人調整層歸一化順序(PreNorm),有人嘗試復雜連接(MRLA),但要么沒觸碰到 “等權累加” 的核心,要么設計太復雜、AI跑不動,始終沒能解決根本問題。直到DeepSeek和Kimi先后出手,才真正捅破了這層“窗戶紙”。

二、兩條破局之路:DeepSeek拓寬通道,Kimi賦予篩選權

面對殘差連接的 “稀釋困境”,DeepSeek 和 Kimi 給出了完全不同的解法,一個走 “拓寬通道” 的路線,一個走 “智能篩選” 的路線,卻都戳中了痛點。

1. DeepSeek mHC:多流并行,用數學約束穩住訓練

DeepSeek的思路很直接:信息主干道太擠,那就拓寬多條并行專線。

它提出的mHC(流形約束超連接),把傳統單條殘差流,擴展成多條并行的 “信息專線”,讓模型自己學習每條專線的權重,靈活混合信息。但問題很快出現:無約束的權重矩陣會導致信號爆炸——在270億參數模型中,信號放大倍數可達3000倍,訓練直接崩潰。

于是DeepSeek用了一個精妙的數學解法:雙隨機矩陣約束。通過Sinkhorn-Knop 算法,把權重矩陣限制在 “每行之和為1、每列之和為 1” 的幾何空間里,既保留了多流并行的優勢,又保證信號不會無限放大,徹底解決了深層模型的訓練穩定性問題。

mHC的優勢很明確:主打訓練穩定,基礎能力全面提升。在語言理解、日常閑聊等基礎場景,效果穩定且模型能做得更深。但它的短板也很突出:只能聽到 “混合后的二手信息”,無法直接回溯早期關鍵步驟,在數學推理、代碼生成、長文本理解等復雜任務上,提升非常有限。而且它是 “傷筋動骨” 的大改造,需要把單流架構改成多流并行,老模型幾乎無法直接升級,適配成本極高。

2. Kimi AttnRes:注意力賦能,即插即用的 “智能篩選器”

Kimi的解法更顛覆:信息亂不是因為通道窄,而是因為不能挑重點,那就給每一層 “篩選權”。

它提出的注意力殘差(AttnRes),把注意力機制引入殘差連接 —— 相當于給每個 “傳話工人” 配了一個智能篩選器:不再全盤接收前面的信息,而是能直接聽到前面所有層的 “原聲”,并給每個信息打分,分數高的多聽、分數低的少聽,最后按權重融合,再加工傳遞。

簡單說,傳統殘差是 “一股腦全加”,AttnRes是 “按需挑選、加權融合”。處理數學題時,模型會多聽負責邏輯推理的層;處理聊天時,會多聽負責語氣理解的層,靈活度大幅提升。為了落地,Kimi還推出了 “分塊注意力殘差(Block AttnRes)”,把層分成小組,既保證效果,又控制算力開銷。



AttnRes的優勢堪稱 “全能”:兼顧訓練穩定與復雜推理,長上下文、邏輯題提升碾壓傳統方案。實驗顯示,它在研究生級專業考試、高等數學推理、代碼生成等硬核任務上,直接實現3-7.5個點的暴漲;還能節約1.25倍算力,訓練額外開銷不到4%,推理延遲增加不到2%。更關鍵的是,它是 “即插即用” 的替換件 —— 只需要把傳統殘差模塊換成Block AttnRes,其他結構、參數全不用動,老模型直接升級就能受益,適配成本極低。



三、性價比對決:Kimi AttnRes 的工程優勢更突出

從性能到落地,兩家方案的差距一目了然:

能力邊界:mHC擅長基礎場景與訓練穩定,復雜推理乏力;AttnRes兼顧穩定與復雜任務,長上下文、精準回溯能力更強;

落地成本:mHC是 “拆房重蓋”,架構重構、參數重調,適配難度大;AttnRes是 “換門鎖”,即插即用,老模型無縫升級;

算力效率:Kimi的Block AttnRes性能與mHC相當,但讀寫數據量僅為mHC的 1/6,在大規模工程部署中,性價比優勢明顯。

這也是為什么Kimi的方案能獲得馬斯克、Andrej Karpathy的高度認可 —— 它不僅解決了技術問題,更貼合大模型規模化落地的現實需求。

四、底層革命的信號:AI 競爭從 “堆算力” 轉向 “管信息”

DeepSeek與Kimi的先后突破,釋放了一個關鍵信號:當數據紅利逐漸見頂,大模型的競爭邏輯正在改變。

過去十年,AI比拼的是 “誰能堆更多參數、更多算力、更多數據”;而現在,創新開始回歸底層架構與信息流動效率。殘差連接作為Transformer的 “根基”,被重新審視和改造,意味著AI開始從 “粗放式堆規模”,轉向 “精細化管信息”—— 讓每一層信息都能被高效利用,讓模型在有限算力下,實現能力的指數級提升。

這場革命才剛剛開始。Andrej Karpathy已經開始思考:注意力機制還能運用到Transformer的哪些角落?業內也在熱議:那些長期沿用的 “默認配置”,是不是都該被重新審視?

對于普通用戶來說,這場底層革命的影響會逐漸顯現:未來的AI會更 “聰明”—— 記得住長文本、解得了復雜題、寫得出精準代碼,同時訓練和推理成本更低,AI服務會更普惠、更強大。

從何愷明的殘差連接,到DeepSeek的mHC,再到Kimi的AttnRes,AI底層架構的每一次微小突破,都在推動整個行業向前。這場關于 “信息流動” 的革命,或許就是下一代大模型的核心競爭力所在。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
如果石油危機徹底爆發,A股會跌到多少點?

如果石油危機徹底爆發,A股會跌到多少點?

金牛遠望號
2026-03-27 20:09:08
鄭麗文來京時間確定,馬英九拒絕通話,大陸發出統一后安排

鄭麗文來京時間確定,馬英九拒絕通話,大陸發出統一后安排

李橑在北漂
2026-03-27 11:17:44
小S長女Elly海邊辣照,這身段誰敢信才20歲?

小S長女Elly海邊辣照,這身段誰敢信才20歲?

娛樂領航家
2026-03-25 23:00:03
中方拒絕出席G7峰會,法國威脅上了:中國面臨歐洲市場關閉的風險

中方拒絕出席G7峰會,法國威脅上了:中國面臨歐洲市場關閉的風險

阿天愛旅行
2026-03-27 18:57:41
人民日報、環球時報接連發出警示:日本的軍國主義獠牙已露出來了

人民日報、環球時報接連發出警示:日本的軍國主義獠牙已露出來了

賤議你讀史
2026-03-24 00:30:08
廣東一店主下單寄遞10箱茅臺酒總價超12萬元,司機用一張模糊“卸貨照”虛假“送達”后失聯,平臺:已與警方確認找到司機,貨物已追回

廣東一店主下單寄遞10箱茅臺酒總價超12萬元,司機用一張模糊“卸貨照”虛假“送達”后失聯,平臺:已與警方確認找到司機,貨物已追回

大象新聞
2026-03-27 21:45:04
張雪峰追悼會定于本周六,喪事從簡不搞排場,11歲女兒成全家心病

張雪峰追悼會定于本周六,喪事從簡不搞排場,11歲女兒成全家心病

未曾青梅
2026-03-26 22:48:49
深夜,美股大跌!中概股直線走低,黃金、白銀飆升!中東局勢,突變!

深夜,美股大跌!中概股直線走低,黃金、白銀飆升!中東局勢,突變!

證券時報e公司
2026-03-27 22:25:01
中國移動正式發布通知:全國將統一執行:4月30日起

中國移動正式發布通知:全國將統一執行:4月30日起

云舟史策
2026-03-26 07:34:02
奪命電飯煲已被曝光!煮米進去秒變毒藥,內膽是肝癌催化劑?

奪命電飯煲已被曝光!煮米進去秒變毒藥,內膽是肝癌催化劑?

輝哥說動漫
2026-03-28 01:26:15
保衛處招聘要求“京內生源、碩士及以上學歷”,北師大回應:事業編制,不是“部分網友認為的保安”

保衛處招聘要求“京內生源、碩士及以上學歷”,北師大回應:事業編制,不是“部分網友認為的保安”

大象新聞
2026-03-27 20:45:06
我年薪300萬,因參加老丈人90大壽遲到1分鐘,妻子就把我趕下餐桌

我年薪300萬,因參加老丈人90大壽遲到1分鐘,妻子就把我趕下餐桌

徐俠客有話說
2026-03-23 11:47:58
東契奇傷情告急!MVP爭奪亮起紅燈,65場生死線成最后考驗

東契奇傷情告急!MVP爭奪亮起紅燈,65場生死線成最后考驗

仰臥撐FTUer
2026-03-27 12:24:23
一個月允許吃幾次他達拉非?這樣服用,高效擺脫ED困擾

一個月允許吃幾次他達拉非?這樣服用,高效擺脫ED困擾

哆啦程醫生
2026-03-27 18:20:23
伊朗伊斯蘭革命衛隊發布公告 敦促西亞地區各國民眾“立即撤離美軍駐扎區域”

伊朗伊斯蘭革命衛隊發布公告 敦促西亞地區各國民眾“立即撤離美軍駐扎區域”

每日經濟新聞
2026-03-27 20:25:35
張雪峰老師生前公開推薦過的3所大學,分數低就業好!

張雪峰老師生前公開推薦過的3所大學,分數低就業好!

高三倒計時
2026-03-26 17:52:46
伊朗女藥劑師拒絕撤離,空襲第10天在“精準”打擊下被“誤殺”

伊朗女藥劑師拒絕撤離,空襲第10天在“精準”打擊下被“誤殺”

網易新聞出品
2026-03-26 11:16:13
美國最擔心的事發生了,伊朗亮出中國“底牌”,中國或成最大贏家

美國最擔心的事發生了,伊朗亮出中國“底牌”,中國或成最大贏家

徐云流浪中國
2026-03-04 15:30:07
突發,要停戰了

突發,要停戰了

TopView
2026-03-27 11:26:27
涉嫌嚴重違紀違法,張智舟被查

涉嫌嚴重違紀違法,張智舟被查

都市快報橙柿互動
2026-03-27 17:32:30
2026-03-28 04:43:00
魏家東 incentive-icons
魏家東
一個人的營銷商學院!
2560文章數 12216關注度
往期回顧 全部

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

頭條要聞

男醫生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

頭條要聞

男醫生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網抵制

財經要聞

我在小吃培訓機構學習“科技與狠活”

汽車要聞

與眾08,金標大眾不能輸的一戰

態度原創

親子
游戲
房產
健康
數碼

親子要聞

天氣暖和了,安排一套孩子自己能玩半天,激發孩子的動手能力,真的是帶娃省媽啊#太空沙解壓 #太空沙花樣...

離譜!PS5全系暴漲 GTA6還沒出主機先買不起了

房產要聞

6.8萬方!天河員村再征地,金融城西區開發全面提速

干細胞抗衰4大誤區,90%的人都中招

數碼要聞

洛斐QQ音樂聯名外設泄露:極地苔原色,瞬間激活432Hz自然聲

無障礙瀏覽 進入關懷版