337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MiniMax和Kimi為了“注意力”,隔空交手

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

10月29日,月之暗面研究員周昕宇(Zhou Xinyu)在X上轉(zhuǎn)發(fā)了MiniMax M2 Tech Blog的推文,并評論道:“Minimax don't worry, Kimi got your back ”。不僅如此,他還在知乎的同一篇博文下留下了同樣的評論,這種帶有調(diào)侃意味的公開“示好”,既像挑逗,也像挑釁。


在M2發(fā)布兩天后,MiniMax的預(yù)訓(xùn)練負(fù)責(zé)人孫浩海(Haohai Sun)在知乎和X發(fā)布了一篇技術(shù)博客,罕見地坦誠地說明了團(tuán)隊為什么放棄efficient attention,“為什么不做linear/sparse attention”?“一直在做,但是在工業(yè)系統(tǒng)里真的打過Full Attention還有些距離”

周昕宇的評論顯然有所指,但“got your back”究竟是什么意思?答案在24小時后揭曉。10月30日,月之暗面發(fā)布了Kimi Linear,一個48B參數(shù)的混合注意力模型,聲稱在長上下文任務(wù)中KV Cache減少75%,吞吐量提升6倍。

技術(shù)報告的Abstract寫道:“for the first time, outperforms full attention under fair comparisons across various scenarios”(首次在公平對比下全面超越全注意力)。

從MiniMax M2發(fā)布到Kimi Linear發(fā)布,恰好72小時。這種技術(shù)路線扽差異是大模型行業(yè)在效率與性能之間的路線探索,爭論仍未塵埃落定。

MiniMax M2:回歸Full Attention

MiniMax此前的M1 Lightning采用Softmax + MoE的混合式架構(gòu),支持百萬級上下文。到了M2,MiniMax選擇了回歸Full Attention。

M2的定位是Agent和代碼生成,強調(diào)"大巧若拙"的產(chǎn)品哲學(xué)。在價格上,M2僅為Claude Sonnet 4.5的8%(每百萬Token輸入0.3美元),推理速度快近2倍(TPS約100)。MiniMax在官方發(fā)布文章中表示,這是通過"高效的激活參數(shù)設(shè)計"實現(xiàn)的"智能、速度與成本的最佳平衡"。


《為什么M2是Full Attention》這篇文章在知乎和X都獲得了不少好評。X上的評論者認(rèn)為這是“難得的工程視角分享”,“對行業(yè)非常有價值”。一位名為@TensorTemplar的評論者說:“難得見到如此詳盡公開分享模型架構(gòu)的整體工程視角。關(guān)于稀疏注意力尾部風(fēng)險的論述非常精彩!在復(fù)雜多輪使用場景中尚未證明其等效性前,我暫不愿稱之為‘高效’。”


Haohai詳細(xì)闡述了三個核心困難。第一個是工程鏈路復(fù)雜性爆炸。用他的話說,“需要同時滿足code/math、agent、多模態(tài)、Long CoT、RL、低精度運算、緩存、speculative decoding等眾多場景”。翻譯成人話就是,現(xiàn)代大模型不只是做一件事,而是要同時支持十幾種不同的應(yīng)用場景。每增加一種efficient attention機制,就要在所有這些場景下驗證,工程復(fù)雜度呈指數(shù)級增長。

第二個困難是評測體系局限。“小規(guī)模實驗的結(jié)論無法外推,復(fù)雜多跳推理任務(wù)的缺陷只在大規(guī)模時暴露。”在小模型上測試效果好,不代表在大模型上也好。很多問題只有在訓(xùn)練到一定規(guī)模時才會暴露,但那時候已經(jīng)投入了大量資源,來不及調(diào)整。Haohai在評論區(qū)補充說,復(fù)雜多跳推理任務(wù)可以參考KorBench、BBEH等榜單,以及BBH里的dyck language任務(wù)。

有評論者問“你們是否嘗試過其他線性注意力變體,比如門控Delta Net或Mamba2?"Haohai回復(fù):”GDN混合模型表現(xiàn)尚可,Mamba2 < Mamba2 + qknorm ≈ GDN。但與全注意力模型相比,這些模型在推理密集型基準(zhǔn)測試(如BBH)中表現(xiàn)相對較弱。“MiniMax在實際測試中發(fā)現(xiàn)了問題。

第三個困難是基建不完善。“Linear Attention的訓(xùn)練是訪存bound,推理需要解決低精度存儲、Prefix Cache、投機解碼等問題。”即使理論上linear attention更快,但實際工程中需要解決很多基礎(chǔ)設(shè)施問題。訓(xùn)練時內(nèi)存帶寬成為瓶頸,推理時需要支持各種優(yōu)化技術(shù),這些都還沒有成熟的解決方案。

這篇博客的評論區(qū)也透露了一些重要信息。一位名為silicon的開發(fā)者評論道:“我自己都開發(fā)了近百種Transformer變體了,但‘驗證新變體是否先進(jìn)’所花的時間遠(yuǎn)遠(yuǎn)大于開發(fā)算法的時間”。Benchmark困境不只是MiniMax的問題,而是整個行業(yè)的痛點。

另一個問題是關(guān)于成本和時延的澄清。當(dāng)有網(wǎng)友問“Agent場景下Full Attention會成為瓶頸嗎”時,Haohai回答是:“GPU的進(jìn)步非常快,對Full Attention來說目前只有成本問題,沒有時延問題。”也就是說核心矛盾不是速度慢,而是成本高。MiniMax的策略是等待GPU進(jìn)步解決成本問題,同時通過工程優(yōu)化(如“高效的激活參數(shù)設(shè)計”)來平衡性能和成本。

月暗的“挑逗”和Kimi Linear的發(fā)布

Zhou Xinyu是月之暗面的研究員,也是MoBA(Mixture of Block Attention)論文的核心作者之一,他的“挑逗”背后藏著一個大招。10月30日晚,月之暗面發(fā)布了Kimi Linear,一個48B總參數(shù)、3B激活參數(shù)的MoE模型,訓(xùn)練數(shù)據(jù)達(dá)5.7T tokens,支持1M tokens的上下文長度。模型權(quán)重、代碼和技術(shù)報告全部開源。從M2發(fā)布到Kimi Linear發(fā)布,72小時。


Kimi Linear有三個值得注意的點。

第一個是Kimi Delta Attention (KDA)。KDA基于Gated DeltaNet,引入了fine-grained gating機制。具體來說,它從scalar gate(標(biāo)量門控)升級到channel-wise gate(通道級門控),讓每個特征維度都有獨立的遺忘因子。用人話說,就像給模型裝了更精細(xì)的"記憶開關(guān)"。傳統(tǒng)的門控機制是一個總開關(guān),要么全記住,要么全忘記。而KDA可以針對不同類型的信息分別控制記憶強度,比如對代碼語法記得牢一點,對臨時變量忘得快一點。這個改進(jìn)帶來了顯著的性能提升,相比標(biāo)準(zhǔn)DPLR實現(xiàn),KDA的計算效率提升了約100%。

第二個是3:1的混合比例。Kimi Linear采用了Hybrid架構(gòu),將KDA(線性注意力)和MLA(Multi-head Latent Attention)混合使用。MLA是DeepSeek在V2/V3中使用的技術(shù),通過將注意力輸入壓縮成低維潛在向量,然后在需要計算注意力時映射回高維空間,顯著減少了內(nèi)存需求。關(guān)鍵問題是混合的比例應(yīng)該是多少?Kimi團(tuán)隊通過系統(tǒng)性的ablation study找到了答案:3:1,也就是每3層KDA配1層MLA。

實驗結(jié)果顯示,3:1是平衡性能和效率的最佳點。純MLA(0:1)的validation PPL是5.77,3:1是5.65,1:1是5.66,7:1是5.70,15:1是5.82。太多全注意力(1:1)浪費資源,太少(7:1、15:1)影響性能。


Kimi Linear 模型架構(gòu)示意圖。該模型由一系列堆疊的模塊組成,每個模塊包含一個 token 混合層(token mixing layer),其后接一個 MoE 通道混合層(channel-mixing layer)。

第三個是No Position Encoding (NoPE)。Kimi Linear的MLA層不使用位置編碼(如RoPE),所有的位置信息完全由KDA層負(fù)責(zé)。這個設(shè)計帶來三個好處:推理效率更高(MLA可以轉(zhuǎn)換為更高效的MQA)、訓(xùn)練更簡單(避免了RoPE參數(shù)調(diào)整)、長上下文泛化更好。

Kimi Linear的性能數(shù)據(jù)很亮眼。技術(shù)報告顯示,Kimi Linear"顯著減少了高達(dá)75%的KV cache需求",這意味著內(nèi)存占用降低4倍,直接降低了部署成本。在1M tokens的長上下文場景中,Kimi Linear的解碼吞吐量比MLA(全注意力)快6.3倍。具體數(shù)據(jù)是TPOT(Time Per Output Token)從11.48ms降到1.84ms。

在RULER基準(zhǔn)測試(128k context)上,Kimi Linear達(dá)到84.3的性能,同時速度是MLA的3.98倍。技術(shù)報告稱這是"Pareto-optimal",性能和速度都是最優(yōu),沒有trade-off。


Kimi團(tuán)隊用1.4T tokens的訓(xùn)練驗證了scaling law。MLA的Loss是2.3092 × C^(-0.0536),Kimi Linear是2.2879 × C^(-0.0527)。技術(shù)報告總結(jié):“Kimi Linear achieves ~ 1.16× computational efficiency”。大規(guī)模訓(xùn)練中,Kimi Linear仍然優(yōu)于Full Attention。

為了驗證理論正確性,Kimi團(tuán)隊在三個合成任務(wù)上測試了KDA:Palindrome(回文任務(wù))、MQAR(多查詢關(guān)聯(lián)回憶)、Stack(棧追蹤)。KDA在所有任務(wù)上都達(dá)到100%準(zhǔn)確率,而GDN和Mamba2在長序列上失敗。這些任務(wù)測試的正是復(fù)雜多跳推理能力。

這也是Linear attention首次在公平對比下全面超越Full Attention。不是特定任務(wù),而是"across various scenarios"(各種場景),包括short-context、long-context、RL scaling。

Kimi Linear的工程化成熟度還體現(xiàn)在vLLM集成上。vLLM是UC Berkeley開發(fā)的開源LLM推理框架,是全球最主流的推理引擎之一。Kimi Delta Attention(KDA)算子已被vLLM官方整合進(jìn)主代碼庫。這意味著vLLM用戶只要升級到最新版本,就可以直接使用Kimi的注意力實現(xiàn)。

MiniMax向左,Kimi向右

MiniMax和Kimi的選擇,代表了兩種不同的技術(shù)路線。整個行業(yè)也都在探索,DeepSeek用MLA 改造/壓縮KV-cache,Mistral引入滑動窗口稀疏模式,OpenAI與Anthropic的具體注意力實現(xiàn)未公開,業(yè)內(nèi)普遍認(rèn)為其以Full Attention的工程化加速為主。

不同選擇反映了效率與性能的不同權(quán)衡。MiniMax選擇Full Attention,核心邏輯是等待GPU進(jìn)步解決成本問題,同時通過工程優(yōu)化來平衡性能和成本。Full Attention是經(jīng)過多年驗證的技術(shù),不需要擔(dān)心在某些場景下的隱藏弱點。

Kimi選擇KDA + MLA,核心邏輯是主動優(yōu)化架構(gòu)降低成本,系統(tǒng)性解決工程化問題。這種選擇的優(yōu)勢是效率更高、成本更低、長期可能競爭力更強,但也面臨更大的工程挑戰(zhàn),需要在多個場景下驗證穩(wěn)定性。Kimi Linear的發(fā)布證明,至少在月之暗面的技術(shù)體系中,他們找到了可能的解決方案。

兩種選擇都有其合理性。MiniMax的策略是時間換空間,賭GPU進(jìn)步會解決成本問題。Kimi的策略是空間換時間,通過技術(shù)創(chuàng)新主動降低成本。哪種路線更好?目前還沒有定論。

不過,這種不同路線的探索和公開的技術(shù)討論,對整個行業(yè)都是一件好事。它讓外界看到了大模型技術(shù)演進(jìn)的真實圖景,沒有正確答案,而是多條路徑的并行探索。MiniMax和Kimi的坦誠和創(chuàng)新,都在推動行業(yè)進(jìn)步。

但在技術(shù)探討之外,兩家公司在實際層面的競爭也不容忽視。月之暗面和MiniMax都定位于中國頭部通用大模型,在長上下文、代碼/Agent、開源推理生態(tài)等方面同場競跑。技術(shù)路線的選擇不僅關(guān)乎技術(shù)本身,也關(guān)乎資本市場的認(rèn)可和長期競爭力。

這是Full Attention和Efficient Attention兩種技術(shù)路線的較量,也是MiniMax和Kimi兩家公司的角力,兩件事情都會持續(xù)下去。這場關(guān)于Attention機制的技術(shù)之爭,本身也成了一場“注意力之爭”

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
第二個惡魔醫(yī)生被抓,鄭大一附院王福建為94名患者植入不需要器械

第二個惡魔醫(yī)生被抓,鄭大一附院王福建為94名患者植入不需要器械

大魚簡科
2026-02-18 22:03:00
統(tǒng)一臺灣的最大障礙,不是美國和臺獨,而是“中華民國”這個稱號

統(tǒng)一臺灣的最大障礙,不是美國和臺獨,而是“中華民國”這個稱號

丞丞故事匯
2026-03-30 11:39:12
亞洲第一賭場新東泰覆滅記:性交易泛濫,富商瘋狂砸錢,揮金如土

亞洲第一賭場新東泰覆滅記:性交易泛濫,富商瘋狂砸錢,揮金如土

談史論天地
2026-04-04 17:30:03
至少2周,趙睿退出,原因曝光,許利民透露情況,球迷祝福

至少2周,趙睿退出,原因曝光,許利民透露情況,球迷祝福

小青年淥淥
2026-04-07 22:58:46
又襲擊!伊朗上當(dāng)了?

又襲擊!伊朗上當(dāng)了?

財經(jīng)要參
2026-04-08 21:20:03
廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

今日搞笑分享
2026-04-06 17:55:16
詹姆斯哭了!安東尼愿拿50萬底薪加盟湖人,只因一句話:他救過我的命

詹姆斯哭了!安東尼愿拿50萬底薪加盟湖人,只因一句話:他救過我的命

寒律
2026-04-09 03:00:57
鐵了心打垮中國?最大威脅現(xiàn)身!這次不是美國,普京卻笑到了最后

鐵了心打垮中國?最大威脅現(xiàn)身!這次不是美國,普京卻笑到了最后

阿七說史
2026-03-13 15:56:51
特朗普精力充沛,養(yǎng)生秘訣是吃大量阿司匹林,日常三餐吃麥當(dāng)勞

特朗普精力充沛,養(yǎng)生秘訣是吃大量阿司匹林,日常三餐吃麥當(dāng)勞

南權(quán)先生
2026-04-04 05:05:03
大媽跳過廣場舞后回家抱孫子,兒媳直接一巴掌:別用你臟手碰我兒子

大媽跳過廣場舞后回家抱孫子,兒媳直接一巴掌:別用你臟手碰我兒子

溫情郵局
2025-11-18 14:31:29
天啊!網(wǎng)傳四川一戶人家門口3座大墳?zāi)梗迕饔卸嗳藪吣梗裏嶙h

天啊!網(wǎng)傳四川一戶人家門口3座大墳?zāi)梗迕饔卸嗳藪吣梗裏嶙h

火山詩話
2026-04-07 17:39:41
不打伊朗了?特朗普通告全球,戰(zhàn)爭費由22國承擔(dān),朝鮮:不可容忍

不打伊朗了?特朗普通告全球,戰(zhàn)爭費由22國承擔(dān),朝鮮:不可容忍

基斯默默
2026-04-04 10:20:03
她的三任丈夫,一個縣委書記,一個省委書記,一個副總理

她的三任丈夫,一個縣委書記,一個省委書記,一個副總理

霹靂炮
2026-04-01 23:11:39
美航天局局長稱外星人存在幾率“相當(dāng)高”:搞清楚是否存在外星生命的問題,是美國國家航空航天局多項工作的“核心”

美航天局局長稱外星人存在幾率“相當(dāng)高”:搞清楚是否存在外星生命的問題,是美國國家航空航天局多項工作的“核心”

大風(fēng)新聞
2026-04-06 11:57:15
張雪稱網(wǎng)友催促的踏板摩托已在做了,同時力薦國產(chǎn)品牌豪爵,豪爵客服回應(yīng)

張雪稱網(wǎng)友催促的踏板摩托已在做了,同時力薦國產(chǎn)品牌豪爵,豪爵客服回應(yīng)

極目新聞
2026-04-07 18:16:06
記者:謝菲聯(lián)今夏將探討再次引進(jìn)菲利普斯,球員也渴望轉(zhuǎn)會

記者:謝菲聯(lián)今夏將探討再次引進(jìn)菲利普斯,球員也渴望轉(zhuǎn)會

懂球帝
2026-04-08 22:54:05
153億訂單在手!商業(yè)航天唯一核彈即將引爆,機器人+核電雙賦能

153億訂單在手!商業(yè)航天唯一核彈即將引爆,機器人+核電雙賦能

財報翻譯官
2026-04-08 10:48:49
3選1定終身!全紅嬋無緣退役安置,效仿張家齊帶貨能穩(wěn)賺?

3選1定終身!全紅嬋無緣退役安置,效仿張家齊帶貨能穩(wěn)賺?

卿子書
2026-01-18 09:27:36
【業(yè)績速遞】多家公司一季度凈利潤同比大幅預(yù)增,天華新能增逾275倍

【業(yè)績速遞】多家公司一季度凈利潤同比大幅預(yù)增,天華新能增逾275倍

證券時報
2026-04-08 20:43:12
福建墜河5死,司機丈夫責(zé)任不小,錯過3次救命機會,毀3個家庭

福建墜河5死,司機丈夫責(zé)任不小,錯過3次救命機會,毀3個家庭

奇思妙想草葉君
2026-04-09 00:07:54
2026-04-09 05:00:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進(jìn)入GenAl。
266文章數(shù) 32關(guān)注度
往期回顧 全部

科技要聞

造出地表最強AI,卻死活不給你用!

頭條要聞

伊朗武裝部隊:伊朗對美以絕不信任

頭條要聞

伊朗武裝部隊:伊朗對美以絕不信任

體育要聞

40歲,但實力倒退12年

娛樂要聞

侯佩岑全家悉尼度假,一家四口幸福滿溢

財經(jīng)要聞

天津海河乳業(yè)回應(yīng)直播間涉黃

汽車要聞

20萬級滿配華為全家桶 華境S是懂家庭的大六座

態(tài)度原創(chuàng)

本地
游戲
親子
家居
數(shù)碼

本地新聞

跟著歌聲游安徽,聽古村回響

真愛拉電線!《終末地》日本市場收入超中國:全球第一

親子要聞

胡圖圖說他差幾分就能兌換發(fā)卡

家居要聞

自在恣意 侘寂風(fēng)別墅

數(shù)碼要聞

小米多款新品本月發(fā),看看你期待哪款?

無障礙瀏覽 進(jìn)入關(guān)懷版