網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

中國AI創(chuàng)業(yè)者重登GTC舞臺：楊植麟用技術(shù)語言講了一個智能上限突破的浪漫故事｜甲子光年

2026-03-18 15:50:11　來源: 甲子光年

北京舉報(bào)

分享至

楊植麟首次完整披露Kimi技術(shù)路線圖。

作者｜王藝

編輯｜王博

發(fā)自美國圣何塞

美國當(dāng)?shù)貢r間3月17日下午，月之暗面（Kimi）創(chuàng)始人楊植麟輕快地走上圣何塞市民大禮堂的舞臺，這是英偉達(dá)GTC最重要的演講場館之一。雖然不少觀眾慕名而來，但很多人不知道的是，楊植麟是近兩年來第一位在GTC官方線下活動中舉行演講的中國大陸AI創(chuàng)業(yè)者。

前一天，英偉達(dá)創(chuàng)始人兼CEO黃仁勛在GTC主題演講中曾多次提及Kimi K2.5模型，不過這次，楊植麟很低調(diào)，他沒有展示任何花哨的產(chǎn)品Demo，沒有播放任何激動人心的宣傳視頻——除了一段展示模型能力的簡短錄屏外，他幾乎全程在講技術(shù)。

優(yōu)化器的數(shù)學(xué)原理、注意力機(jī)制的并行分塊公式、強(qiáng)化學(xué)習(xí)的獎勵函數(shù)設(shè)計(jì)……在AI公司紛紛用炫酷的視頻和亮眼的榜單“秀肌肉”的時候，楊植麟反其道而行之，用密集的技術(shù)細(xì)節(jié)告訴在場的每一位聽眾：開源模型不僅要開放，還必須出色。

模型開源并不難。但是在數(shù)據(jù)變貴、訓(xùn)練變難、推理變長、任務(wù)變復(fù)雜的今天，如何把開源模型的“智能密度”繼續(xù)往上推？

楊植麟的答案，是三個概念：Token Efficiency（Token效率）、Long Context（長上下文）、Agent Swarms（智能體集群）。

1.Token效率：突破智能的天花板

演講一開始，楊植麟就放出了一張機(jī)器學(xué)習(xí)歷史上“最經(jīng)典的圖”——來自DeepMind Chinchilla論文的Scaling Law曲線。橫軸是訓(xùn)練所用的token數(shù)量，縱軸是模型損失，一條平滑下降的曲線揭示了“投入更多的數(shù)據(jù)、更大的模型、更多的計(jì)算，就能獲得更低的損失、更好的智能”的道理。

過去幾年間，整個行業(yè)正是沿著這條曲線一路狂奔，才有了GPT-4、Claude、Gemini等一系列令人驚嘆的大模型。

但楊植麟提出了一個不同的視角。

“我們追求的是更好的Token效率，”他說，“Token效率不僅關(guān)乎效率，它實(shí)際上關(guān)乎提高智能的上限。”

在大多數(shù)人的理解中，Token效率是一個關(guān)于“省錢”和“降成本”的概念，但楊植麟的思路完全不同。他認(rèn)為，假設(shè)全世界可用的高質(zhì)量訓(xùn)練數(shù)據(jù)總量是一個常數(shù)（比如50萬億token），如果模型優(yōu)化器能將Token效率提升2倍，那么這50萬億Token就等價于100萬億Token的訓(xùn)練效果——換言之，在數(shù)據(jù)總量有限的約束下，Token效率的每一次提升，都在直接拓展智能所能達(dá)到的極限。

由此，Kimi引入了Muon優(yōu)化器。Muon是一個二階優(yōu)化器，其核心思想是將每個梯度更新進(jìn)行正交變換，使得更新方向上的各個條目彼此正交。在工程實(shí)現(xiàn)層面，Kimi團(tuán)隊(duì)開發(fā)了分布式Muon優(yōu)化方案，在數(shù)據(jù)并行組之間分區(qū)優(yōu)化器狀態(tài)，使得Muon可以在NVIDIA GPU集群上高效運(yùn)行，不因內(nèi)存開銷而拖慢訓(xùn)練進(jìn)度。

在相同參數(shù)量和訓(xùn)練Token數(shù)量的條件下，僅僅將優(yōu)化器從Adam替換為Muon，就能在多項(xiàng)基準(zhǔn)測試上獲得全面提升。楊植麟將這一收益概括為“約2倍的Token效率提升”，也就是說，使用Muon訓(xùn)練的模型，只需一半的數(shù)據(jù)就能達(dá)到Adam訓(xùn)練模型的同等水平。

然而，當(dāng)Kimi團(tuán)隊(duì)將Muon進(jìn)一步擴(kuò)展到萬億參數(shù)規(guī)模時，新的挑戰(zhàn)出現(xiàn)了。

“在中等規(guī)模的Muon訓(xùn)練中，最大logits迅速爆炸，超過了1000，而典型值應(yīng)該小于100。同時，訓(xùn)練損失發(fā)散，無法收斂。”楊植麟在演講中描述了這一令人頭疼的訓(xùn)練不穩(wěn)定性問題。

在大模型訓(xùn)練中，logit爆炸是一個經(jīng)典的工程難題。當(dāng)模型內(nèi)部某些數(shù)值失控增長時，注意力機(jī)制中的softmax運(yùn)算會變得極端——幾乎所有的注意力權(quán)重都集中到一個位置上，導(dǎo)致信息流被“堵塞”，進(jìn)而引發(fā)梯度異常和損失發(fā)散。

Kimi團(tuán)隊(duì)給出的解決方案是QK-Clipping（QK裁剪）技術(shù)。其原理并不復(fù)雜：對于每個注意力頭，在前向傳播中實(shí)時監(jiān)控最大logit值，然后計(jì)算一個除法因子，應(yīng)用于鍵（Key）和查詢（Query）投影，將最大值限制在特定范圍內(nèi)，防止數(shù)值爆炸。

這個裁剪操作幾乎不影響正常訓(xùn)練。楊植麟展示了一組對比實(shí)驗(yàn)：有QK-Clip和無QK-Clip的訓(xùn)練損失曲線幾乎完全重疊，說明裁剪并未引入額外的信息損失。而在啟用MuonClip（Muon + QK-Clip的組合）之后，K2模型的最大logits被穩(wěn)定控制在100以下，并最終自然衰減。

"這是我見過的最美麗的訓(xùn)練曲線之一。"楊植麟流露出感性的一面。

2.長上下文：從100個Token到一百萬個Token

如果說Token效率解決的是“用有限數(shù)據(jù)達(dá)到更高智能”的問題，那么長上下文解決的則是“讓智能在更復(fù)雜的任務(wù)中發(fā)揮作用”的問題。

“回到10年前，人們用RNN做機(jī)器翻譯，但無法理解整個代碼庫或運(yùn)行超長智能體軌跡——比如從零編寫一個Linux內(nèi)核，”楊植麟說，“這是智能體時代必需的能力，因?yàn)槿蝿?wù)越來越難，需要越來越長的上下文。”

但Transformer原生的全注意力機(jī)制存在一個根本性限制：其計(jì)算復(fù)雜度和內(nèi)存消耗隨上下文長度的平方增長。當(dāng)上下文從4K擴(kuò)展到128K，計(jì)算量增長了1000倍以上；如果進(jìn)一步擴(kuò)展到1M（一百萬token），全注意力幾乎不可能在當(dāng)前硬件條件下高效運(yùn)行。

Kimi給出的方案是Kimi Linear架構(gòu)，其核心組件是Kimi Delta Attention（KDA），一種改進(jìn)的線性注意力機(jī)制。原始線性注意力機(jī)制使用單一的全局衰減因子，就像一個簡陋的“遺忘開關(guān)”——要么忘記一切，要么保留一切。而KDA引入的alpha項(xiàng)是一個對角矩陣，控制每個通道的衰減率。這意味著模型可以同時擁有“慢衰減”通道（保留長程信息，如文檔的整體主題或代碼的架構(gòu)設(shè)計(jì)）和“快衰減”通道（快速刷新信息，如最近幾行代碼的局部變量），從而大幅增強(qiáng)了線性注意力的表達(dá)能力。

這個設(shè)計(jì)思路類似于人腦的記憶機(jī)制：我們的長期記憶和短期記憶并不共享同一套“遺忘速率”——童年的深刻經(jīng)歷可以保留一輩子，而今天早餐吃了什么可能下午就忘了。

KDA用數(shù)學(xué)的方式實(shí)現(xiàn)了這種多層次的記憶結(jié)構(gòu)。在實(shí)際部署中，Kimi采用了3:1的混合比例，即75%的層使用KDA線性注意力，25%的層使用標(biāo)準(zhǔn)全局注意力。在短上下文任務(wù)MMLU-Pro（4K上下文）上，Kimi Linear達(dá)到了84.3分，與全注意力模型持平甚至略優(yōu)。在長上下文任務(wù)RULER（128K上下文）上達(dá)到51.0分。而在解碼長度達(dá)到100萬token時，Kimi Linear的輸出token時間（TPOT）比當(dāng)前主流的MLA（Multi-head Latent Attention）架構(gòu)快6.3倍。

“這是首個在各方面（短上下文、長輸入、長輸出）都超越全注意力的架構(gòu)。”楊植麟在演講現(xiàn)場表示。

3.智能體集群：讓AI學(xué)會像公司一樣協(xié)作

如果Token效率和長上下文主要是在“單個模型”層面的優(yōu)化，那么“智能體群”則將視角抬升到了系統(tǒng)層面。

智能體集群（Agent Swarm）的核心架構(gòu)并不復(fù)雜：有一個編排器（Orchestrator）或主智能體負(fù)責(zé)接收任務(wù)、理解任務(wù)結(jié)構(gòu)、分解子任務(wù)。編排器可以生成多個子智能體——比如AI研究員、物理研究員、事實(shí)核查員、Web開發(fā)者等——每個子智能體負(fù)責(zé)一個特定的子任務(wù)。子智能體們并行執(zhí)行各自的任務(wù)，將結(jié)果返回給編排器，編排器匯總、評估、必要時發(fā)起新一輪分配，如此迭代直到最終任務(wù)完成。

楊植麟做了一個類比：“這類似于人類社會——建立一個公司需要不同的角色，需要一個CEO來分解任務(wù)并分配給不同的角色，然后整個組織協(xié)同工作。”

從概念上，這并不是AI領(lǐng)域第一次提出“多智能體協(xié)作”的想法。早在2023年，學(xué)術(shù)界就出現(xiàn)了AutoGen、CrewAI等多智能體框架。但楊植麟指出了一個關(guān)鍵的區(qū)別：之前的多智能體系統(tǒng)大多是基于人工設(shè)計(jì)的工作流（workflow），依賴人類預(yù)先定義好每個智能體的角色和交互規(guī)則。而Kimi的智能體群是通過強(qiáng)化學(xué)習(xí)訓(xùn)練出來的——模型自己學(xué)會了如何分解任務(wù)、何時生成子智能體、如何聚合結(jié)果。

這一范式轉(zhuǎn)換最大的意義在于泛化性：人工設(shè)計(jì)的工作流只能覆蓋預(yù)見到的場景，而學(xué)習(xí)出來的編排能力可以泛化到全新的任務(wù)類型。

楊植麟展示了一張圖表：橫軸是任務(wù)復(fù)雜性（由模型組在該任務(wù)上的準(zhǔn)確率衡量），縱軸是執(zhí)行時間。圖中清晰地顯示，智能體群相比單智能體在執(zhí)行時間上有大幅縮減，在復(fù)雜任務(wù)上可以節(jié)省4.5倍的時間。楊植麟表示：“如果我們擴(kuò)展到100甚至1000個智能體，就可以在可容忍的時間內(nèi)完成極其復(fù)雜的任務(wù)，產(chǎn)生真正的經(jīng)濟(jì)價值。”

從擴(kuò)展維度來看，智能體集群可以在輸入規(guī)模、輸出規(guī)模、行動規(guī)模、編排規(guī)模四個方向上“拉伸”能力邊界；而在訓(xùn)練方法上，楊植麟則介紹了三種精心設(shè)計(jì)的獎勵信號。

第一是實(shí)例化獎勵。這個獎勵信號的存在是為了解決“串行坍縮”的問題——在沒有適當(dāng)激勵的情況下，模型可能會學(xué)到一個“懶惰策略”：不生成任何子智能體，自己單獨(dú)完成所有任務(wù)。這在簡單任務(wù)上可能勉強(qiáng)可行，但在復(fù)雜任務(wù)上會導(dǎo)致性能嚴(yán)重下降。實(shí)例化獎勵通過正向激勵子智能體的生成，防止模型退化為單智能體模式。

第二是完成獎勵。這是為了解決另一個對稱的問題——“虛假并行”。模型可能學(xué)會生成大量子智能體，但這些子智能體并不真正完成有意義的任務(wù)，只是做做樣子。完成獎勵確保每個被生成的子智能體都切實(shí)完成了分配給它的子任務(wù)。

第三是結(jié)果獎勵。這是最終的、面向任務(wù)目標(biāo)的獎勵信號，衡量智能體集群作為一個整體是否成功完成了最終目標(biāo)。

三種獎勵信號的層次設(shè)計(jì)體現(xiàn)了Kimi團(tuán)隊(duì)對多智能體學(xué)習(xí)的深入理解。如果只有結(jié)果獎勵，模型很難學(xué)到有效的并行策略——因?yàn)樵趶?fù)雜任務(wù)中，從隨機(jī)策略到成功完成目標(biāo)的信號極其稀疏。實(shí)例化獎勵和完成獎勵提供了中間層次的學(xué)習(xí)信號，幫助模型逐步學(xué)會有效的并行化策略。

將三個維度的創(chuàng)新整合在一起，楊植麟用一段精彩的總結(jié)將技術(shù)敘事拉回到統(tǒng)一的框架：“這三種維度可以轉(zhuǎn)化為智能體的語言——Token效率關(guān)乎更強(qiáng)的先驗(yàn)知識，讓智能體能更高效地搜索解決方案；長上下文讓智能體能運(yùn)行數(shù)天甚至數(shù)周來完成復(fù)雜任務(wù)；智能體集群則提供了另一個準(zhǔn)確性維度。最終，我們將擁有一群智能體，每個都擁有超長上下文和強(qiáng)先驗(yàn)知識，在整個智能體系統(tǒng)中進(jìn)行搜索。”

4.下一代架構(gòu)：當(dāng)Attention旋轉(zhuǎn)90度

如果說前三個部分是Kimi已經(jīng)兌現(xiàn)的技術(shù)成果，那么演講的最后一個部分則是對未來的一次大膽探索。

2024年的NeurIPS大會上，OpenAI的聯(lián)合創(chuàng)始人、深度學(xué)習(xí)領(lǐng)域最具影響力的研究者之一Ilya Sutskever提出了一個引人深思的觀察：“LSTM是旋轉(zhuǎn)90度的ResNet。”

這句話的含義是：殘差連接（Residual Connection）可以被視為LSTM在深度方向上的展開。LSTM通過門控機(jī)制在時間維度上傳遞和更新信息，而殘差連接通過簡單的加法在深度維度上傳遞信息。兩者在本質(zhì)上解決的是同一個問題——如何在信息的長距離傳遞中防止衰減和丟失。

但Sutskever的類比也暗示了殘差連接的一個局限性：它只是一個“固定加法”操作。每一層的輸出被簡單地累加到殘差流中，沒有任何選擇性——無論信息是否有用，都被一視同仁地保留下來。這就像一條只能“往前走”的單行道，信息可以不斷被添加進(jìn)來，但無法被有選擇性地過濾或重組。

楊植麟由此提出了一個自然而深刻的問題：“那么，Attention旋轉(zhuǎn)90度是什么？”

如果Attention在序列維度上的作用是：讓模型根據(jù)當(dāng)前輸入，有選擇性地檢索和聚合之前的信息——那么將這個機(jī)制“旋轉(zhuǎn)90度”應(yīng)用到深度維度上，就意味著：讓每一層根據(jù)當(dāng)前的計(jì)算需求，有選擇性地檢索和聚合之前各層的輸出。

這就是AttentionResiduals（注意力殘差）。

在標(biāo)準(zhǔn)的Transformer中，第L層的輸入是前面所有層輸出的簡單累加。而在Attention Residuals中，第L層通過一個softmax注意力機(jī)制，對之前所有層的輸出進(jìn)行加權(quán)聚合——權(quán)重是學(xué)習(xí)得到的、依賴于輸入的。這意味著模型可以根據(jù)當(dāng)前token的具體需求，選擇性地“回溯”到最相關(guān)的層去提取信息，而不是機(jī)械地累加所有層的輸出。

這個設(shè)計(jì)在概念上極其優(yōu)雅，但在工程上面臨一個顯而易見的挑戰(zhàn)：內(nèi)存。

在標(biāo)準(zhǔn)Transformer中，殘差連接幾乎不消耗額外內(nèi)存——只需保存當(dāng)前的累加向量即可。而Attention Residuals需要保存所有之前層的輸出，以便進(jìn)行注意力運(yùn)算，這將每token的內(nèi)存訪問從一個常數(shù)級別提升到與層數(shù)成正比。

Kimi團(tuán)隊(duì)的解決方案是BlockAttentionResiduals，也就是將模型的層分成若干塊（Block），注意力在塊內(nèi)的層之間和跨塊之間進(jìn)行。這將每token的內(nèi)存訪問從O(Ld)（L為總層數(shù)，d為隱藏維度）降低到O(Nd)（N為塊的大小），在實(shí)踐中是一個可接受的開銷。

在Scaling Law實(shí)驗(yàn)中，Block Attention Residuals架構(gòu)實(shí)現(xiàn)了1.24倍的計(jì)算效率提升；在驗(yàn)證損失曲線上，Block Attention Residuals的表現(xiàn)持續(xù)優(yōu)于基線；在MMLU-Pro、GPQA-Diamond、BBH等多項(xiàng)基準(zhǔn)測試中，Block Attention Residuals也均有顯著提升。

此外，在跨模態(tài)研究方面，楊植麟分享了一個重要的觀察：原生的視覺-文本聯(lián)合預(yù)訓(xùn)練中，視覺強(qiáng)化學(xué)習(xí)（Vision RL）能夠顯著反哺文本性能。消融實(shí)驗(yàn)數(shù)據(jù)顯示，經(jīng)過視覺 RL 訓(xùn)練后，模型在 MMLU-Pro 和 GPQA-Diamond 等純文本基準(zhǔn)測試上的表現(xiàn)提升了約2.1%。這意味著空間推理與視覺邏輯的增強(qiáng)，可以有效轉(zhuǎn)化為更深層的通用認(rèn)知能力。

5.構(gòu)建“基礎(chǔ)設(shè)施”級的開源模型

“Adam優(yōu)化器發(fā)明于11年前，我們擴(kuò)展并開源了MuonClip。Transformer架構(gòu)發(fā)明于8年前，我們擴(kuò)展并開源了Kimi Linear。殘差連接發(fā)明于10年前，我們擴(kuò)展并開源了Attention Residuals。”

演講最后，楊植麟給出了三句話總結(jié)。而這張PPT，也吸引了大量現(xiàn)場觀眾拍照。

圖片來源：「甲子光年」拍攝

三項(xiàng)技術(shù)，分別對應(yīng)深度學(xué)習(xí)大廈的三根支柱：優(yōu)化算法、序列建模架構(gòu)、深度信息傳遞機(jī)制。它們各自誕生于2015年前后的深度學(xué)習(xí)的“黃金時代”，至今仍然是幾乎所有大模型的核心組件。

而楊植麟在GTC 2026的舞臺上宣告，Kimi已經(jīng)在這三個方向上完成了實(shí)質(zhì)性的創(chuàng)新，并且將這些創(chuàng)新全部開源。

為什么楊植麟要這么做？

AI競爭進(jìn)入2026年，開源與閉源的博弈已經(jīng)進(jìn)入了新階段。一方面，以O(shè)penAI、Anthropic、Google為代表的閉源陣營繼續(xù)在模型能力上保持領(lǐng)先，其最新的推理模型在復(fù)雜任務(wù)上展現(xiàn)出令人矚目的表現(xiàn)；另一方面，開源社區(qū)的追趕速度令人驚嘆。

「甲子光年」認(rèn)為，在這個背景下，Kimi的定位其實(shí)非常清晰：做開源陣營的技術(shù)先鋒。與Meta開源Llama系列模型、阿里開源Qwen系列模型等主要是開源模型權(quán)重不同，Kimi開源的是構(gòu)建更好模型的方法論：更好的優(yōu)化器、更好的架構(gòu)、更好的訓(xùn)練技術(shù)。這是一種“基礎(chǔ)設(shè)施級”的開源策略。

從技術(shù)影響的角度看，Kimi的三項(xiàng)創(chuàng)新各自面向不同的問題域，但共同指向一個統(tǒng)一的目標(biāo)：提升開源模型的能力上限。MuonClip通過提升Token效率，讓有限的數(shù)據(jù)產(chǎn)生更多的智能；Kimi Linear通過高效的長上下文處理，讓模型能夠勝任更復(fù)雜的任務(wù)；Attention Residuals通過改進(jìn)深層信息傳遞，讓每一層計(jì)算都更有效率。每一項(xiàng)創(chuàng)新，都在為其他創(chuàng)新創(chuàng)造更好的發(fā)揮空間。

當(dāng)然，挑戰(zhàn)仍存。Kimi的三項(xiàng)技術(shù)創(chuàng)新目前主要通過內(nèi)部實(shí)驗(yàn)和基準(zhǔn)測試得到驗(yàn)證，它們在更廣泛的社區(qū)實(shí)踐中的表現(xiàn)還有待觀察——Muon優(yōu)化器在不同硬件環(huán)境和不同模型規(guī)模上的適用性、Kimi Linear在更多樣化的任務(wù)上的表現(xiàn)、Attention Residuals能否真正走向生產(chǎn)場景……這些都需要時間來回答。

但無論如何，楊植麟在GTC 2026上的這場演講，傳遞了一個明確而有力的信號：中國的AI創(chuàng)業(yè)公司不僅能夠跟隨，還能夠引領(lǐng)。在深度學(xué)習(xí)最核心的技術(shù)領(lǐng)域——優(yōu)化算法、模型架構(gòu)、訓(xùn)練方法——Kimi正在進(jìn)行實(shí)質(zhì)性的原創(chuàng)探索，并以開源的方式將成果回饋給全球社區(qū)。

在演講的最后一張PPT上，楊植麟再次展示了三條擴(kuò)展曲線：Token效率維度上不斷左移的損失曲線，長上下文維度上不斷降低的位置損失，智能體群維度上不斷攀升的任務(wù)復(fù)雜性。三條曲線同時向著“更好”的方向延伸，沒有停下來的跡象。

這或許是整場演講最深刻的隱喻——在AI領(lǐng)域，真正的競爭力不在于此刻你站在哪里，而在于你沿著哪些維度在擴(kuò)展，以及你擴(kuò)展的速度有多快。

楊植麟和Kimi選擇三個維度同時發(fā)力。結(jié)果如何，時間會給出答案。

（封面圖來源：「甲子光年」拍攝，文中PPT圖片來源：月之暗面）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.