網(wǎng)易首頁(yè) > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

楊植麟 2026 中關(guān)村論壇演講：詳解 Kimi K2.5，以前的很多標(biāo)準(zhǔn)，現(xiàn)在都可以被挑戰(zhàn)

2026-03-25 13:29:20　來(lái)源: 網(wǎng)易智能

北京舉報(bào)

分享至

3月25日，中關(guān)村論壇全體會(huì)議在北京舉行。月之暗面（Moonshot AI）創(chuàng)始人楊植麟發(fā)表題為《開源AI：加速探索智能上限》的主題演講。演講聚焦大模型發(fā)展的“第一性原理”，楊植麟在會(huì)上深入解析了最新開源模型 Kimi K2.5的核心技術(shù)突破，在強(qiáng)調(diào)“規(guī)模化定律”的同時(shí)，更核心地指向“如何高效地將能源轉(zhuǎn)化為智能”，并展示了其團(tuán)隊(duì)在架構(gòu)與協(xié)作模式上的創(chuàng)新突破。
展望未來(lái)，楊植麟預(yù)測(cè)AI研發(fā)范式將迎來(lái)劇變：“從今年到明年以及接下來(lái)的若干年……會(huì)有更多的是AI去主導(dǎo)研究。” 研究員將配備海量AI資源，由AI協(xié)助合成任務(wù)、定義環(huán)境與獎(jiǎng)勵(lì)函數(shù)，甚至探索新網(wǎng)絡(luò)架構(gòu)，從而推動(dòng)整個(gè)領(lǐng)域加速發(fā)展。（袁寧）

以下為楊植麟演講全文：

大家好，今天很高興有機(jī)會(huì)能分享我們?cè)谧鲩_源模型，以及去訓(xùn)練更好的大模型領(lǐng)域做的很多最新的工作。

其實(shí)做大模型本質(zhì)上是把更多的能源轉(zhuǎn)化成智能，然后轉(zhuǎn)化的過(guò)程中最重要的事情是能夠去規(guī)模化，也就是說(shuō)能夠把盡可能多的能源，然后去經(jīng)過(guò)算力和模型去變成更多的更高程度的智能。

所以本質(zhì)上，規(guī)模化是過(guò)去若干年所有的模型和 AI 發(fā)展的一個(gè)很重要的基礎(chǔ)。

當(dāng)然，規(guī)模化并不是代表著我們只是去暴力的增加能源，或者去暴力的增加算力，而是涉及到我們?cè)趺丛谶@里面能夠非常有效的去進(jìn)行規(guī)模化，所以我們其實(shí)會(huì)從三個(gè)不同的方面去提高效率，比如說(shuō)我們會(huì)很強(qiáng)調(diào)去提升 TOKEN 的效率。

首先是 TOKEN 效率，本質(zhì)上是代表著說(shuō)你同樣的數(shù)據(jù)中能夠?qū)W到多少智能，因?yàn)檫@個(gè)世界上的有效的數(shù)據(jù)其實(shí)是一個(gè)常量，或者說(shuō)它是一個(gè)非常有限的值。那如果你有更好的網(wǎng)絡(luò)架構(gòu)，或者有更好的優(yōu)化器，那么你就可以從一樣的數(shù)據(jù)里面學(xué)到更多的智能。

其次，同時(shí)我們也希望去提升更長(zhǎng)的上下文，在更長(zhǎng)的上下文的時(shí)候，可以在相同的情況下得到更低的損失函數(shù)（loss），模型可以實(shí)現(xiàn)更長(zhǎng)的輸出，完成更長(zhǎng)時(shí)和復(fù)雜的任務(wù)。所以我們也設(shè)計(jì)了一系列的網(wǎng)絡(luò)架構(gòu)（Kimi Linear）去提升模型在長(zhǎng)上下文的表現(xiàn)。

第三，我們?cè)谧钚碌哪Ｐ?Kimi K2.5里面也提出了新的一種規(guī)模化的方法，就是通過(guò)引入多個(gè) agent 形成一個(gè) agent 集群或者叫 agent swarm 的概念，使得說(shuō)有很多個(gè) agent 可以一起去工作，然后通過(guò)這種

這是我們?cè)贙2.5里面研發(fā)出來(lái)的Agent 集群，它的一個(gè)效果可以看到橫坐標(biāo)是任務(wù)的復(fù)雜度，而縱坐標(biāo)是它的執(zhí)行時(shí)間，所以如果我們?cè)瓉?lái)只是用這種單一 agent 的方式進(jìn)行工作，你可以看到就是隨著任務(wù)的復(fù)雜度逐漸提升，它需要的完成時(shí)間是指數(shù)增加的。比如說(shuō)如果你完成一個(gè)非常復(fù)雜的任務(wù)，比如如果想從頭去寫一個(gè)代碼倉(cāng)庫(kù)，去實(shí)現(xiàn)一個(gè)很復(fù)雜的功能，那它可能需要幾天甚至幾周的時(shí)間。

但是如果我們能夠并行開啟，比如說(shuō)100個(gè) agent 去同時(shí)完成這個(gè)任務(wù)，然后在過(guò)程中他們會(huì)有去進(jìn)行互相的協(xié)作，然后去互相的協(xié)調(diào)和規(guī)劃接下來(lái)應(yīng)該要做的事情，就跟一個(gè)人類的組織一樣，那么這個(gè)時(shí)候其實(shí)可以做到隨著任務(wù)復(fù)雜度的增加，執(zhí)行時(shí)間其實(shí)沒有太大的變化，那這樣的話也是意味著你可以在單位時(shí)間內(nèi)去完成更加復(fù)雜的任務(wù)，使得原來(lái)一些完全不可能實(shí)現(xiàn)的任務(wù)變得有可能。

就像一個(gè)公司一樣，如果你想做一個(gè)非常艱難的一個(gè)事情，你要完成一個(gè)很復(fù)雜的一個(gè) mission，比如說(shuō)從0到1建造一家100億或者1,000億美元的公司，那么你只靠一個(gè)人，可能要100年才能做出來(lái)，那你在市場(chǎng)上是沒有競(jìng)爭(zhēng)力的，但這個(gè)時(shí)候如果你有100個(gè)人，或者200個(gè)非常聰明的人，能一起協(xié)作，那就有可能在短時(shí)間內(nèi)

所以通過(guò) Agent 集群我們可以實(shí)現(xiàn)規(guī)模化的輸入，比如說(shuō)你可以同時(shí)去調(diào)查幾百個(gè)不同的數(shù)據(jù)來(lái)源，在各種權(quán)威的這個(gè)數(shù)據(jù)源里面去尋找你要的答案。你也可以做規(guī)模化的輸出，比如說(shuō)你可以通過(guò)。剛才說(shuō)的這個(gè)數(shù)據(jù)來(lái)源可以去撰寫一個(gè)幾百頁(yè)的這樣的一個(gè)論文，或者去規(guī)模化的執(zhí)行或規(guī)模化的編排，通過(guò)這種方式去提升任務(wù)的復(fù)雜度。

同時(shí)，我們也非常注重就是去提升，去研發(fā)更好的底層網(wǎng)絡(luò)架構(gòu)。這個(gè)是我們最新開源的一個(gè)模型架構(gòu)，叫做注意力殘差（Attention Residuals），然后這項(xiàng)技術(shù)其實(shí)最主要的洞察就是一個(gè)來(lái)自于一個(gè)10年前的技術(shù)，叫 Resnet，或者叫殘差網(wǎng)絡(luò)連接。

在十年之前其實(shí)沒有任何人有辦法去訓(xùn)練深度的神經(jīng)網(wǎng)絡(luò)，然后通過(guò)之前像何凱明等研究者去引入這種殘差網(wǎng)絡(luò)，它可以讓模型去訓(xùn)練超過(guò)，比如說(shuō)幾十、幾百層，你可以任意的去增加層數(shù)，然后這種殘差結(jié)構(gòu)其實(shí)你可以認(rèn)為它是 LSTM 網(wǎng)絡(luò)的一個(gè)變種，只是說(shuō) LSTM 是應(yīng)用在時(shí)間的維度上，那殘差網(wǎng)絡(luò)它更多現(xiàn)在是應(yīng)用在深度上。然后使得說(shuō)你每一層可以用上一層的輸出，然后做一個(gè)函數(shù)的處理，得到當(dāng)前這一層的輸出。

那我們其實(shí)就是把一樣的類似的思路做一個(gè)自然的泛化，我們把注意力機(jī)制這種計(jì)算模式也是進(jìn)行一個(gè)90度的旋轉(zhuǎn)，從原來(lái)只是應(yīng)用在時(shí)間軸上，現(xiàn)在我們可以把它應(yīng)用在深度上，所以當(dāng)你把注意力應(yīng)用到深度上之后，它其實(shí)有很多好處，比如說(shuō)就不僅僅只是基于前一層的輸出來(lái)進(jìn)行計(jì)算。而是你可以去結(jié)合之前的所有層的輸出進(jìn)行計(jì)算，那這樣你在優(yōu)化的時(shí)候就會(huì)有非常多的好處。這個(gè)圖是我們的整個(gè)架構(gòu)的體現(xiàn)，就可以看到左邊是標(biāo)準(zhǔn)的殘差的結(jié)構(gòu)，那右邊其實(shí)是最新的我們提出來(lái)的，并且開源的殘差結(jié)構(gòu)，然后我們也設(shè)計(jì)了這種基于塊狀的這種殘差結(jié)構(gòu)，使得說(shuō)它能夠非常高效的去提，去進(jìn)行實(shí)現(xiàn)，能夠基本上在只有2%的這種額外的成本的情況下，能夠就非常大幅度的去提升它的效果。

就像我剛才說(shuō)的，大模型的第一性原理是規(guī)模化定律（Scaling Law），但我們不僅僅只是去暴力的做規(guī)模化，而是希望我們?cè)谶@里面規(guī)模化的同時(shí)也能夠去提升它的效率，所以我們一直是致力于研發(fā)更強(qiáng)的這個(gè)模型架構(gòu)，使得說(shuō)它的 TOKEN 效率可以更高，比如說(shuō)像 Adam 優(yōu)化器或者像 attention 架構(gòu)，或者像殘差連接這些都是有了8到11年的歷史的技術(shù)。這個(gè)在計(jì)算機(jī)領(lǐng)域其實(shí)是一個(gè)非常長(zhǎng)的時(shí)間，就過(guò)去十年的時(shí)間里面，其實(shí)沒有任何人能夠去挑戰(zhàn)這樣的技術(shù)，大家都把它當(dāng)成一個(gè)標(biāo)準(zhǔn)。

其實(shí)你可以看到隨著現(xiàn)在算力的進(jìn)步，包括大家研發(fā)方式的變化，從原來(lái)的偏學(xué)術(shù)，單純從 idea 出發(fā)的研究，到變成現(xiàn)在更加重視與工程的結(jié)合，然后可以設(shè)計(jì)非常。扎實(shí)的這種規(guī)模化驗(yàn)證實(shí)驗(yàn)，從而讓你能得到非常扎實(shí)的結(jié)論，所以很多以前認(rèn)為是標(biāo)準(zhǔn)的東西，現(xiàn)在都是可以被挑戰(zhàn)的，所以我們通過(guò)一系列的新的模型架構(gòu)和我們的開源，讓全世界更多的人能夠去獲取新的技術(shù)，從而推進(jìn)整個(gè)領(lǐng)域的發(fā)展。

可以看到，我們通過(guò)開源模型也逐漸成為了新的標(biāo)準(zhǔn)。這是兩張從 NVIDIA 最新 GTC 2026黃仁勛主題演講中里面摘取的幻燈片，所以你也可以看到就是像以 Kimi 為代表的很多模型，其實(shí)現(xiàn)在。正在全世界所有的模型廠商的評(píng)測(cè)里面作為一個(gè)標(biāo)準(zhǔn)，就是你如果要發(fā)布一個(gè)新的芯片，那你必須要通過(guò) Kimi 或者其他的開源模型來(lái)評(píng)測(cè)你的性能的提升。然后包括全世界很多研究機(jī)構(gòu)也在用Kimi K2.5或者是其他的開源模型去進(jìn)行研究。

我覺得通過(guò)開源讓每一個(gè)企業(yè)、每一個(gè)研究者、每一個(gè)終端的用戶能非常低門檻的獲取智能，是一個(gè)非常重要的事情。同時(shí)我們?cè)谶@里面也做很重要的很多創(chuàng)新，包括我剛提到的很多新的架構(gòu)，使得說(shuō)這些技術(shù)它都是開放的，可以被任何人所獲取，然后大家能夠去形成一個(gè)生態(tài)系統(tǒng)，一起去推動(dòng) AI 領(lǐng)域的發(fā)展。

大模型領(lǐng)域仍在快速發(fā)展，現(xiàn)在的研發(fā)方式跟兩三年之前會(huì)有很大的不同。

三年之前更多的是大家使用天然數(shù)據(jù)，也就是你從整個(gè)互聯(lián)網(wǎng)獲取的數(shù)據(jù)，加上一些少量的人工標(biāo)注，你要去標(biāo)注某一條數(shù)據(jù)。它到底是不是符合你的價(jià)值觀或者偏好？

到去年大家更加重視一個(gè)大規(guī)模的強(qiáng)化學(xué)習(xí)系統(tǒng)，在這里面人是去篩選里面高質(zhì)量的任務(wù)，但是這些任務(wù)還是由人來(lái)確定的，然后通過(guò)在這些任務(wù)上做強(qiáng)化學(xué)習(xí)得到更好的效果。可以看到大家就是在編程或者數(shù)學(xué)這些領(lǐng)域上得到的提升，其實(shí)主要來(lái)自于這種技術(shù)路線。

但是從今年到明年以及接下來(lái)的若干年的時(shí)間內(nèi)，整個(gè) AI 研究和研發(fā)的方式會(huì)發(fā)生重大的變化，會(huì)有更多的是 AI 去主導(dǎo)研究。每個(gè)研究員他會(huì)配備非常多的 AI 的 TOKEN，然后這些 AI 的 TOKEN 可以幫你去合成新的任務(wù)，然后去幫你合成新的環(huán)境，去幫你定義在環(huán)境下面到底什么樣是最好、最合適的獎(jiǎng)勵(lì)函數(shù)，甚至去幫你探索新的網(wǎng)絡(luò)架構(gòu)可能長(zhǎng)什么樣。所以在這樣的前提下，整個(gè) AI 的研發(fā)也會(huì)逐漸加速，所以 Kimi 希望也能夠跟整個(gè)開源社區(qū)一起，去不斷的把智能的技術(shù)往前推進(jìn)，打造一個(gè)更加好的生態(tài)系統(tǒng)。

感謝大家。