![]()
![]()
楊植麟首次完整披露Kimi技術(shù)路線圖。
作者|王藝
編輯|王博
發(fā)自美國圣何塞
美國當(dāng)?shù)貢r間3月17日下午,月之暗面(Kimi)創(chuàng)始人楊植麟輕快地走上圣何塞市民大禮堂的舞臺,這是英偉達(dá)GTC最重要的演講場館之一。雖然不少觀眾慕名而來,但很多人不知道的是,楊植麟是近兩年來第一位在GTC官方線下活動中舉行演講的中國大陸AI創(chuàng)業(yè)者。
前一天,英偉達(dá)創(chuàng)始人兼CEO黃仁勛在GTC主題演講中曾多次提及Kimi K2.5模型,不過這次,楊植麟很低調(diào),他沒有展示任何花哨的產(chǎn)品Demo,沒有播放任何激動人心的宣傳視頻——除了一段展示模型能力的簡短錄屏外,他幾乎全程在講技術(shù)。
優(yōu)化器的數(shù)學(xué)原理、注意力機(jī)制的并行分塊公式、強(qiáng)化學(xué)習(xí)的獎勵函數(shù)設(shè)計(jì)……在AI公司紛紛用炫酷的視頻和亮眼的榜單“秀肌肉”的時候,楊植麟反其道而行之,用密集的技術(shù)細(xì)節(jié)告訴在場的每一位聽眾:開源模型不僅要開放,還必須出色。
模型開源并不難。但是在數(shù)據(jù)變貴、訓(xùn)練變難、推理變長、任務(wù)變復(fù)雜的今天,如何把開源模型的“智能密度”繼續(xù)往上推?
楊植麟的答案,是三個概念:Token Efficiency(Token效率)、Long Context(長上下文)、Agent Swarms(智能體集群)。
1.Token效率:突破智能的天花板
演講一開始,楊植麟就放出了一張機(jī)器學(xué)習(xí)歷史上“最經(jīng)典的圖”——來自DeepMind Chinchilla論文的Scaling Law曲線。橫軸是訓(xùn)練所用的token數(shù)量,縱軸是模型損失,一條平滑下降的曲線揭示了“投入更多的數(shù)據(jù)、更大的模型、更多的計(jì)算,就能獲得更低的損失、更好的智能”的道理。
![]()
過去幾年間,整個行業(yè)正是沿著這條曲線一路狂奔,才有了GPT-4、Claude、Gemini等一系列令人驚嘆的大模型。
但楊植麟提出了一個不同的視角。
“我們追求的是更好的Token效率,”他說,“Token效率不僅關(guān)乎效率,它實(shí)際上關(guān)乎提高智能的上限。”
在大多數(shù)人的理解中,Token效率是一個關(guān)于“省錢”和“降成本”的概念,但楊植麟的思路完全不同。他認(rèn)為,假設(shè)全世界可用的高質(zhì)量訓(xùn)練數(shù)據(jù)總量是一個常數(shù)(比如50萬億token),如果模型優(yōu)化器能將Token效率提升2倍,那么這50萬億Token就等價于100萬億Token的訓(xùn)練效果——換言之,在數(shù)據(jù)總量有限的約束下,Token效率的每一次提升,都在直接拓展智能所能達(dá)到的極限。
由此,Kimi引入了Muon優(yōu)化器。Muon是一個二階優(yōu)化器,其核心思想是將每個梯度更新進(jìn)行正交變換,使得更新方向上的各個條目彼此正交。在工程實(shí)現(xiàn)層面,Kimi團(tuán)隊(duì)開發(fā)了分布式Muon優(yōu)化方案,在數(shù)據(jù)并行組之間分區(qū)優(yōu)化器狀態(tài),使得Muon可以在NVIDIA GPU集群上高效運(yùn)行,不因內(nèi)存開銷而拖慢訓(xùn)練進(jìn)度。
![]()
在相同參數(shù)量和訓(xùn)練Token數(shù)量的條件下,僅僅將優(yōu)化器從Adam替換為Muon,就能在多項(xiàng)基準(zhǔn)測試上獲得全面提升。楊植麟將這一收益概括為“約2倍的Token效率提升”,也就是說,使用Muon訓(xùn)練的模型,只需一半的數(shù)據(jù)就能達(dá)到Adam訓(xùn)練模型的同等水平。
然而,當(dāng)Kimi團(tuán)隊(duì)將Muon進(jìn)一步擴(kuò)展到萬億參數(shù)規(guī)模時,新的挑戰(zhàn)出現(xiàn)了。
“在中等規(guī)模的Muon訓(xùn)練中,最大logits迅速爆炸,超過了1000,而典型值應(yīng)該小于100。同時,訓(xùn)練損失發(fā)散,無法收斂。”楊植麟在演講中描述了這一令人頭疼的訓(xùn)練不穩(wěn)定性問題。
在大模型訓(xùn)練中,logit爆炸是一個經(jīng)典的工程難題。當(dāng)模型內(nèi)部某些數(shù)值失控增長時,注意力機(jī)制中的softmax運(yùn)算會變得極端——幾乎所有的注意力權(quán)重都集中到一個位置上,導(dǎo)致信息流被“堵塞”,進(jìn)而引發(fā)梯度異常和損失發(fā)散。
Kimi團(tuán)隊(duì)給出的解決方案是QK-Clipping(QK裁剪)技術(shù)。其原理并不復(fù)雜:對于每個注意力頭,在前向傳播中實(shí)時監(jiān)控最大logit值,然后計(jì)算一個除法因子,應(yīng)用于鍵(Key)和查詢(Query)投影,將最大值限制在特定范圍內(nèi),防止數(shù)值爆炸。
![]()
這個裁剪操作幾乎不影響正常訓(xùn)練。楊植麟展示了一組對比實(shí)驗(yàn):有QK-Clip和無QK-Clip的訓(xùn)練損失曲線幾乎完全重疊,說明裁剪并未引入額外的信息損失。而在啟用MuonClip(Muon + QK-Clip的組合)之后,K2模型的最大logits被穩(wěn)定控制在100以下,并最終自然衰減。
![]()
"這是我見過的最美麗的訓(xùn)練曲線之一。"楊植麟流露出感性的一面。
2.長上下文:從100個Token到一百萬個Token
如果說Token效率解決的是“用有限數(shù)據(jù)達(dá)到更高智能”的問題,那么長上下文解決的則是“讓智能在更復(fù)雜的任務(wù)中發(fā)揮作用”的問題。
“回到10年前,人們用RNN做機(jī)器翻譯,但無法理解整個代碼庫或運(yùn)行超長智能體軌跡——比如從零編寫一個Linux內(nèi)核,”楊植麟說,“這是智能體時代必需的能力,因?yàn)槿蝿?wù)越來越難,需要越來越長的上下文。”
但Transformer原生的全注意力機(jī)制存在一個根本性限制:其計(jì)算復(fù)雜度和內(nèi)存消耗隨上下文長度的平方增長。當(dāng)上下文從4K擴(kuò)展到128K,計(jì)算量增長了1000倍以上;如果進(jìn)一步擴(kuò)展到1M(一百萬token),全注意力幾乎不可能在當(dāng)前硬件條件下高效運(yùn)行。
Kimi給出的方案是Kimi Linear架構(gòu),其核心組件是Kimi Delta Attention(KDA),一種改進(jìn)的線性注意力機(jī)制。原始線性注意力機(jī)制使用單一的全局衰減因子,就像一個簡陋的“遺忘開關(guān)”——要么忘記一切,要么保留一切。而KDA引入的alpha項(xiàng)是一個對角矩陣,控制每個通道的衰減率。這意味著模型可以同時擁有“慢衰減”通道(保留長程信息,如文檔的整體主題或代碼的架構(gòu)設(shè)計(jì))和“快衰減”通道(快速刷新信息,如最近幾行代碼的局部變量),從而大幅增強(qiáng)了線性注意力的表達(dá)能力。
這個設(shè)計(jì)思路類似于人腦的記憶機(jī)制:我們的長期記憶和短期記憶并不共享同一套“遺忘速率”——童年的深刻經(jīng)歷可以保留一輩子,而今天早餐吃了什么可能下午就忘了。
KDA用數(shù)學(xué)的方式實(shí)現(xiàn)了這種多層次的記憶結(jié)構(gòu)。在實(shí)際部署中,Kimi采用了3:1的混合比例,即75%的層使用KDA線性注意力,25%的層使用標(biāo)準(zhǔn)全局注意力。在短上下文任務(wù)MMLU-Pro(4K上下文)上,Kimi Linear達(dá)到了84.3分,與全注意力模型持平甚至略優(yōu)。在長上下文任務(wù)RULER(128K上下文)上達(dá)到51.0分。而在解碼長度達(dá)到100萬token時,Kimi Linear的輸出token時間(TPOT)比當(dāng)前主流的MLA(Multi-head Latent Attention)架構(gòu)快6.3倍。
![]()
“這是首個在各方面(短上下文、長輸入、長輸出)都超越全注意力的架構(gòu)。”楊植麟在演講現(xiàn)場表示。
3.智能體集群:讓AI學(xué)會像公司一樣協(xié)作
如果Token效率和長上下文主要是在“單個模型”層面的優(yōu)化,那么“智能體群”則將視角抬升到了系統(tǒng)層面。
智能體集群(Agent Swarm)的核心架構(gòu)并不復(fù)雜:有一個編排器(Orchestrator)或主智能體負(fù)責(zé)接收任務(wù)、理解任務(wù)結(jié)構(gòu)、分解子任務(wù)。編排器可以生成多個子智能體——比如AI研究員、物理研究員、事實(shí)核查員、Web開發(fā)者等——每個子智能體負(fù)責(zé)一個特定的子任務(wù)。子智能體們并行執(zhí)行各自的任務(wù),將結(jié)果返回給編排器,編排器匯總、評估、必要時發(fā)起新一輪分配,如此迭代直到最終任務(wù)完成。
楊植麟做了一個類比:“這類似于人類社會——建立一個公司需要不同的角色,需要一個CEO來分解任務(wù)并分配給不同的角色,然后整個組織協(xié)同工作。”
從概念上,這并不是AI領(lǐng)域第一次提出“多智能體協(xié)作”的想法。早在2023年,學(xué)術(shù)界就出現(xiàn)了AutoGen、CrewAI等多智能體框架。但楊植麟指出了一個關(guān)鍵的區(qū)別:之前的多智能體系統(tǒng)大多是基于人工設(shè)計(jì)的工作流(workflow),依賴人類預(yù)先定義好每個智能體的角色和交互規(guī)則。而Kimi的智能體群是通過強(qiáng)化學(xué)習(xí)訓(xùn)練出來的——模型自己學(xué)會了如何分解任務(wù)、何時生成子智能體、如何聚合結(jié)果。
這一范式轉(zhuǎn)換最大的意義在于泛化性:人工設(shè)計(jì)的工作流只能覆蓋預(yù)見到的場景,而學(xué)習(xí)出來的編排能力可以泛化到全新的任務(wù)類型。
楊植麟展示了一張圖表:橫軸是任務(wù)復(fù)雜性(由模型組在該任務(wù)上的準(zhǔn)確率衡量),縱軸是執(zhí)行時間。圖中清晰地顯示,智能體群相比單智能體在執(zhí)行時間上有大幅縮減,在復(fù)雜任務(wù)上可以節(jié)省4.5倍的時間。楊植麟表示:“如果我們擴(kuò)展到100甚至1000個智能體,就可以在可容忍的時間內(nèi)完成極其復(fù)雜的任務(wù),產(chǎn)生真正的經(jīng)濟(jì)價值。”
![]()
從擴(kuò)展維度來看,智能體集群可以在輸入規(guī)模、輸出規(guī)模、行動規(guī)模、編排規(guī)模四個方向上“拉伸”能力邊界;而在訓(xùn)練方法上,楊植麟則介紹了三種精心設(shè)計(jì)的獎勵信號。
第一是實(shí)例化獎勵。這個獎勵信號的存在是為了解決“串行坍縮”的問題——在沒有適當(dāng)激勵的情況下,模型可能會學(xué)到一個“懶惰策略”:不生成任何子智能體,自己單獨(dú)完成所有任務(wù)。這在簡單任務(wù)上可能勉強(qiáng)可行,但在復(fù)雜任務(wù)上會導(dǎo)致性能嚴(yán)重下降。實(shí)例化獎勵通過正向激勵子智能體的生成,防止模型退化為單智能體模式。
第二是完成獎勵。這是為了解決另一個對稱的問題——“虛假并行”。模型可能學(xué)會生成大量子智能體,但這些子智能體并不真正完成有意義的任務(wù),只是做做樣子。完成獎勵確保每個被生成的子智能體都切實(shí)完成了分配給它的子任務(wù)。
第三是結(jié)果獎勵。這是最終的、面向任務(wù)目標(biāo)的獎勵信號,衡量智能體集群作為一個整體是否成功完成了最終目標(biāo)。
![]()
三種獎勵信號的層次設(shè)計(jì)體現(xiàn)了Kimi團(tuán)隊(duì)對多智能體學(xué)習(xí)的深入理解。如果只有結(jié)果獎勵,模型很難學(xué)到有效的并行策略——因?yàn)樵趶?fù)雜任務(wù)中,從隨機(jī)策略到成功完成目標(biāo)的信號極其稀疏。實(shí)例化獎勵和完成獎勵提供了中間層次的學(xué)習(xí)信號,幫助模型逐步學(xué)會有效的并行化策略。
將三個維度的創(chuàng)新整合在一起,楊植麟用一段精彩的總結(jié)將技術(shù)敘事拉回到統(tǒng)一的框架:“這三種維度可以轉(zhuǎn)化為智能體的語言——Token效率關(guān)乎更強(qiáng)的先驗(yàn)知識,讓智能體能更高效地搜索解決方案;長上下文讓智能體能運(yùn)行數(shù)天甚至數(shù)周來完成復(fù)雜任務(wù);智能體集群則提供了另一個準(zhǔn)確性維度。最終,我們將擁有一群智能體,每個都擁有超長上下文和強(qiáng)先驗(yàn)知識,在整個智能體系統(tǒng)中進(jìn)行搜索。”
4.下一代架構(gòu):當(dāng)Attention旋轉(zhuǎn)90度
如果說前三個部分是Kimi已經(jīng)兌現(xiàn)的技術(shù)成果,那么演講的最后一個部分則是對未來的一次大膽探索。
2024年的NeurIPS大會上,OpenAI的聯(lián)合創(chuàng)始人、深度學(xué)習(xí)領(lǐng)域最具影響力的研究者之一Ilya Sutskever提出了一個引人深思的觀察:“LSTM是旋轉(zhuǎn)90度的ResNet。”
![]()
這句話的含義是:殘差連接(Residual Connection)可以被視為LSTM在深度方向上的展開。LSTM通過門控機(jī)制在時間維度上傳遞和更新信息,而殘差連接通過簡單的加法在深度維度上傳遞信息。兩者在本質(zhì)上解決的是同一個問題——如何在信息的長距離傳遞中防止衰減和丟失。
但Sutskever的類比也暗示了殘差連接的一個局限性:它只是一個“固定加法”操作。每一層的輸出被簡單地累加到殘差流中,沒有任何選擇性——無論信息是否有用,都被一視同仁地保留下來。這就像一條只能“往前走”的單行道,信息可以不斷被添加進(jìn)來,但無法被有選擇性地過濾或重組。
楊植麟由此提出了一個自然而深刻的問題:“那么,Attention旋轉(zhuǎn)90度是什么?”
如果Attention在序列維度上的作用是:讓模型根據(jù)當(dāng)前輸入,有選擇性地檢索和聚合之前的信息——那么將這個機(jī)制“旋轉(zhuǎn)90度”應(yīng)用到深度維度上,就意味著:讓每一層根據(jù)當(dāng)前的計(jì)算需求,有選擇性地檢索和聚合之前各層的輸出。
這就是AttentionResiduals(注意力殘差)。
在標(biāo)準(zhǔn)的Transformer中,第L層的輸入是前面所有層輸出的簡單累加。而在Attention Residuals中,第L層通過一個softmax注意力機(jī)制,對之前所有層的輸出進(jìn)行加權(quán)聚合——權(quán)重是學(xué)習(xí)得到的、依賴于輸入的。這意味著模型可以根據(jù)當(dāng)前token的具體需求,選擇性地“回溯”到最相關(guān)的層去提取信息,而不是機(jī)械地累加所有層的輸出。
這個設(shè)計(jì)在概念上極其優(yōu)雅,但在工程上面臨一個顯而易見的挑戰(zhàn):內(nèi)存。
在標(biāo)準(zhǔn)Transformer中,殘差連接幾乎不消耗額外內(nèi)存——只需保存當(dāng)前的累加向量即可。而Attention Residuals需要保存所有之前層的輸出,以便進(jìn)行注意力運(yùn)算,這將每token的內(nèi)存訪問從一個常數(shù)級別提升到與層數(shù)成正比。
Kimi團(tuán)隊(duì)的解決方案是BlockAttentionResiduals,也就是將模型的層分成若干塊(Block),注意力在塊內(nèi)的層之間和跨塊之間進(jìn)行。這將每token的內(nèi)存訪問從O(Ld)(L為總層數(shù),d為隱藏維度)降低到O(Nd)(N為塊的大小),在實(shí)踐中是一個可接受的開銷。
![]()
在Scaling Law實(shí)驗(yàn)中,Block Attention Residuals架構(gòu)實(shí)現(xiàn)了1.24倍的計(jì)算效率提升;在驗(yàn)證損失曲線上,Block Attention Residuals的表現(xiàn)持續(xù)優(yōu)于基線;在MMLU-Pro、GPQA-Diamond、BBH等多項(xiàng)基準(zhǔn)測試中,Block Attention Residuals也均有顯著提升。
![]()
此外,在跨模態(tài)研究方面,楊植麟分享了一個重要的觀察:原生的視覺-文本聯(lián)合預(yù)訓(xùn)練中,視覺強(qiáng)化學(xué)習(xí)(Vision RL)能夠顯著反哺文本性能。消融實(shí)驗(yàn)數(shù)據(jù)顯示,經(jīng)過視覺 RL 訓(xùn)練后,模型在 MMLU-Pro 和 GPQA-Diamond 等純文本基準(zhǔn)測試上的表現(xiàn)提升了約2.1%。這意味著空間推理與視覺邏輯的增強(qiáng),可以有效轉(zhuǎn)化為更深層的通用認(rèn)知能力。
5.構(gòu)建“基礎(chǔ)設(shè)施”級的開源模型
“Adam優(yōu)化器發(fā)明于11年前,我們擴(kuò)展并開源了MuonClip。Transformer架構(gòu)發(fā)明于8年前,我們擴(kuò)展并開源了Kimi Linear。殘差連接發(fā)明于10年前,我們擴(kuò)展并開源了Attention Residuals。”
演講最后,楊植麟給出了三句話總結(jié)。而這張PPT,也吸引了大量現(xiàn)場觀眾拍照。
![]()
圖片來源:「甲子光年」拍攝
![]()
三項(xiàng)技術(shù),分別對應(yīng)深度學(xué)習(xí)大廈的三根支柱:優(yōu)化算法、序列建模架構(gòu)、深度信息傳遞機(jī)制。它們各自誕生于2015年前后的深度學(xué)習(xí)的“黃金時代”,至今仍然是幾乎所有大模型的核心組件。
而楊植麟在GTC 2026的舞臺上宣告,Kimi已經(jīng)在這三個方向上完成了實(shí)質(zhì)性的創(chuàng)新,并且將這些創(chuàng)新全部開源。
為什么楊植麟要這么做?
AI競爭進(jìn)入2026年,開源與閉源的博弈已經(jīng)進(jìn)入了新階段。一方面,以O(shè)penAI、Anthropic、Google為代表的閉源陣營繼續(xù)在模型能力上保持領(lǐng)先,其最新的推理模型在復(fù)雜任務(wù)上展現(xiàn)出令人矚目的表現(xiàn);另一方面,開源社區(qū)的追趕速度令人驚嘆。
「甲子光年」認(rèn)為,在這個背景下,Kimi的定位其實(shí)非常清晰:做開源陣營的技術(shù)先鋒。與Meta開源Llama系列模型、阿里開源Qwen系列模型等主要是開源模型權(quán)重不同,Kimi開源的是構(gòu)建更好模型的方法論:更好的優(yōu)化器、更好的架構(gòu)、更好的訓(xùn)練技術(shù)。這是一種“基礎(chǔ)設(shè)施級”的開源策略。
從技術(shù)影響的角度看,Kimi的三項(xiàng)創(chuàng)新各自面向不同的問題域,但共同指向一個統(tǒng)一的目標(biāo):提升開源模型的能力上限。MuonClip通過提升Token效率,讓有限的數(shù)據(jù)產(chǎn)生更多的智能;Kimi Linear通過高效的長上下文處理,讓模型能夠勝任更復(fù)雜的任務(wù);Attention Residuals通過改進(jìn)深層信息傳遞,讓每一層計(jì)算都更有效率。每一項(xiàng)創(chuàng)新,都在為其他創(chuàng)新創(chuàng)造更好的發(fā)揮空間。
當(dāng)然,挑戰(zhàn)仍存。Kimi的三項(xiàng)技術(shù)創(chuàng)新目前主要通過內(nèi)部實(shí)驗(yàn)和基準(zhǔn)測試得到驗(yàn)證,它們在更廣泛的社區(qū)實(shí)踐中的表現(xiàn)還有待觀察——Muon優(yōu)化器在不同硬件環(huán)境和不同模型規(guī)模上的適用性、Kimi Linear在更多樣化的任務(wù)上的表現(xiàn)、Attention Residuals能否真正走向生產(chǎn)場景……這些都需要時間來回答。
但無論如何,楊植麟在GTC 2026上的這場演講,傳遞了一個明確而有力的信號:中國的AI創(chuàng)業(yè)公司不僅能夠跟隨,還能夠引領(lǐng)。在深度學(xué)習(xí)最核心的技術(shù)領(lǐng)域——優(yōu)化算法、模型架構(gòu)、訓(xùn)練方法——Kimi正在進(jìn)行實(shí)質(zhì)性的原創(chuàng)探索,并以開源的方式將成果回饋給全球社區(qū)。
在演講的最后一張PPT上,楊植麟再次展示了三條擴(kuò)展曲線:Token效率維度上不斷左移的損失曲線,長上下文維度上不斷降低的位置損失,智能體群維度上不斷攀升的任務(wù)復(fù)雜性。三條曲線同時向著“更好”的方向延伸,沒有停下來的跡象。
這或許是整場演講最深刻的隱喻——在AI領(lǐng)域,真正的競爭力不在于此刻你站在哪里,而在于你沿著哪些維度在擴(kuò)展,以及你擴(kuò)展的速度有多快。
楊植麟和Kimi選擇三個維度同時發(fā)力。結(jié)果如何,時間會給出答案。
(封面圖來源:「甲子光年」拍攝,文中PPT圖片來源:月之暗面)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.