![]()
3月25日,中關(guān)村論壇全體會(huì)議在北京舉行。 月之暗面(Moonshot AI)創(chuàng)始人楊植麟發(fā)表題為《開源AI:加速探索智能上限》的主題演講。演講聚焦大模型發(fā)展的“第一性原理”,楊植麟在會(huì)上深入解析了最新開源模型 Kimi K2.5的核心技術(shù)突破,在強(qiáng)調(diào)“規(guī)模化定律”的同時(shí),更核心地指向“如何高效地將能源轉(zhuǎn)化為智能”,并展示了其團(tuán)隊(duì)在架構(gòu)與協(xié)作模式上的創(chuàng)新突破。
展望未來(lái),楊植麟預(yù)測(cè)AI研發(fā)范式將迎來(lái)劇變:“從今年到明年以及接下來(lái)的若干年……會(huì)有更多的是AI去主導(dǎo)研究。” 研究員將配備海量AI資源,由AI協(xié)助合成任務(wù)、定義環(huán)境與獎(jiǎng)勵(lì)函數(shù),甚至探索新網(wǎng)絡(luò)架構(gòu),從而推動(dòng)整個(gè)領(lǐng)域加速發(fā)展。(袁寧)
以下為楊植麟演講全文:
大家好,今天很高興有機(jī)會(huì)能分享我們?cè)谧鲩_源模型,以及去訓(xùn)練更好的大模型領(lǐng)域做的很多最新的工作。
其實(shí)做大模型本質(zhì)上是把更多的能源轉(zhuǎn)化成智能,然后轉(zhuǎn)化的過(guò)程中最重要的事情是能夠去規(guī)模化,也就是說(shuō)能夠把盡可能多的能源,然后去經(jīng)過(guò)算力和模型去變成更多的更高程度的智能。
所以本質(zhì)上,規(guī)模化是過(guò)去若干年所有的模型和 AI 發(fā)展的一個(gè)很重要的基礎(chǔ)。
當(dāng)然,規(guī)模化并不是代表著我們只是去暴力的增加能源,或者去暴力的增加算力,而是涉及到我們?cè)趺丛谶@里面能夠非常有效的去進(jìn)行規(guī)模化,所以我們其實(shí)會(huì)從三個(gè)不同的方面去提高效率,比如說(shuō)我們會(huì)很強(qiáng)調(diào)去提升 TOKEN 的效率。
首先是 TOKEN 效率,本質(zhì)上是代表著說(shuō)你同樣的數(shù)據(jù)中能夠?qū)W到多少智能,因?yàn)檫@個(gè)世界上的有效的數(shù)據(jù)其實(shí)是一個(gè)常量,或者說(shuō)它是一個(gè)非常有限的值。那如果你有更好的網(wǎng)絡(luò)架構(gòu),或者有更好的優(yōu)化器,那么你就可以從一樣的數(shù)據(jù)里面學(xué)到更多的智能。
其次,同時(shí)我們也希望去提升更長(zhǎng)的上下文,在更長(zhǎng)的上下文的時(shí)候,可以在相同的情況下得到更低的損失函數(shù)(loss),模型可以實(shí)現(xiàn)更長(zhǎng)的輸出,完成更長(zhǎng)時(shí)和復(fù)雜的任務(wù)。所以我們也設(shè)計(jì)了一系列的網(wǎng)絡(luò)架構(gòu)(Kimi Linear) 去提升模型在長(zhǎng)上下文的表現(xiàn)。
第三,我們?cè)谧钚碌哪P?Kimi K2.5里面也提出了新的一種規(guī)模化的方法,就是通過(guò)引入多個(gè) agent 形成一個(gè) agent 集群或者叫 agent swarm 的概念,使得說(shuō)有很多個(gè) agent 可以一起去工作,然后通過(guò)這種
這是我們?cè)贙2.5里面研發(fā)出來(lái)的Agent 集群,它的一個(gè)效果可以看到橫坐標(biāo)是任務(wù)的復(fù)雜度,而縱坐標(biāo)是它的執(zhí)行時(shí)間,所以如果我們?cè)瓉?lái)只是用這種單一 agent 的方式進(jìn)行工作,你可以看到就是隨著任務(wù)的復(fù)雜度逐漸提升,它需要的完成時(shí)間是指數(shù)增加的。比如說(shuō)如果你完成一個(gè)非常復(fù)雜的任務(wù),比如如果想從頭去寫一個(gè)代碼倉(cāng)庫(kù),去實(shí)現(xiàn)一個(gè)很復(fù)雜的功能,那它可能需要幾天甚至幾周的時(shí)間。
但是如果我們能夠并行開啟,比如說(shuō)100個(gè) agent 去同時(shí)完成這個(gè)任務(wù),然后在過(guò)程中他們會(huì)有去進(jìn)行互相的協(xié)作,然后去互相的協(xié)調(diào)和規(guī)劃接下來(lái)應(yīng)該要做的事情,就跟一個(gè)人類的組織一樣,那么這個(gè)時(shí)候其實(shí)可以做到隨著任務(wù)復(fù)雜度的增加,執(zhí)行時(shí)間其實(shí)沒有太大的變化,那這樣的話也是意味著你可以在單位時(shí)間內(nèi)去完成更加復(fù)雜的任務(wù),使得原來(lái)一些完全不可能實(shí)現(xiàn)的任務(wù)變得有可能。
就像一個(gè)公司一樣,如果你想做一個(gè)非常艱難的一個(gè)事情,你要完成一個(gè)很復(fù)雜的一個(gè) mission, 比如說(shuō)從0到1建造一家100億或者1,000億美元的公司,那么你只靠一個(gè)人,可能要100年才能做出來(lái),那你在市場(chǎng)上是沒有競(jìng)爭(zhēng)力的,但這個(gè)時(shí)候如果你有100個(gè)人,或者200個(gè)非常聰明的人,能一起協(xié)作,那就有可能在短時(shí)間內(nèi)
所以通過(guò) Agent 集群我們可以實(shí)現(xiàn)規(guī)模化的輸入,比如說(shuō)你可以同時(shí)去調(diào)查幾百個(gè)不同的數(shù)據(jù)來(lái)源,在各種權(quán)威的這個(gè)數(shù)據(jù)源里面去尋找你要的答案。你也可以做規(guī)模化的輸出,比如說(shuō)你可以通過(guò)。剛才說(shuō)的這個(gè)數(shù)據(jù)來(lái)源可以去撰寫一個(gè)幾百頁(yè)的這樣的一個(gè)論文,或者去規(guī)模化的執(zhí)行或規(guī)模化的編排,通過(guò)這種方式去提升任務(wù)的復(fù)雜度。
同時(shí),我們也非常注重就是去提升,去研發(fā)更好的底層網(wǎng)絡(luò)架構(gòu)。這個(gè)是我們最新開源的一個(gè)模型架構(gòu),叫做注意力殘差(Attention Residuals),然后這項(xiàng)技術(shù)其實(shí)最主要的洞察就是一個(gè)來(lái)自于一個(gè)10年前的技術(shù),叫 Resnet, 或者叫殘差網(wǎng)絡(luò)連接。
在十年之前其實(shí)沒有任何人有辦法去訓(xùn)練深度的神經(jīng)網(wǎng)絡(luò),然后通過(guò)之前像何凱明等研究者去引入這種殘差網(wǎng)絡(luò),它可以讓模型去訓(xùn)練超過(guò),比如說(shuō)幾十、幾百層,你可以任意的去增加層數(shù),然后這種殘差結(jié)構(gòu)其實(shí)你可以認(rèn)為它是 LSTM 網(wǎng)絡(luò)的一個(gè)變種,只是說(shuō) LSTM 是應(yīng)用在時(shí)間的維度上,那殘差網(wǎng)絡(luò)它更多現(xiàn)在是應(yīng)用在深度上。然后使得說(shuō)你每一層可以用上一層的輸出,然后做一個(gè)函數(shù)的處理,得到當(dāng)前這一層的輸出。
那我們其實(shí)就是把一樣的類似的思路做一個(gè)自然的泛化,我們把注意力機(jī)制這種計(jì)算模式也是進(jìn)行一個(gè)90度的旋轉(zhuǎn),從原來(lái)只是應(yīng)用在時(shí)間軸上,現(xiàn)在我們可以把它應(yīng)用在深度上,所以當(dāng)你把注意力應(yīng)用到深度上之后,它其實(shí)有很多好處,比如說(shuō)就不僅僅只是基于前一層的輸出來(lái)進(jìn)行計(jì)算。而是你可以去結(jié)合之前的所有層的輸出進(jìn)行計(jì)算,那這樣你在優(yōu)化的時(shí)候就會(huì)有非常多的好處。這個(gè)圖是我們的整個(gè)架構(gòu)的體現(xiàn),就可以看到左邊是標(biāo)準(zhǔn)的殘差的結(jié)構(gòu),那右邊其實(shí)是最新的我們提出來(lái)的,并且開源的殘差結(jié)構(gòu),然后我們也設(shè)計(jì)了這種基于塊狀的這種殘差結(jié)構(gòu),使得說(shuō)它能夠非常高效的去提,去進(jìn)行實(shí)現(xiàn),能夠基本上在只有2%的這種額外的成本的情況下,能夠就非常大幅度的去提升它的效果。
就像我剛才說(shuō)的,大模型的第一性原理是規(guī)模化定律(Scaling Law),但我們不僅僅只是去暴力的做規(guī)模化,而是希望我們?cè)谶@里面規(guī)模化的同時(shí)也能夠去提升它的效率,所以我們一直是致力于研發(fā)更強(qiáng)的這個(gè)模型架構(gòu),使得說(shuō)它的 TOKEN 效率可以更高,比如說(shuō)像 Adam 優(yōu)化器或者像 attention 架構(gòu),或者像殘差連接這些都是有了8到11年的歷史的技術(shù)。這個(gè)在計(jì)算機(jī)領(lǐng)域其實(shí)是一個(gè)非常長(zhǎng)的時(shí)間,就過(guò)去十年的時(shí)間里面,其實(shí)沒有任何人能夠去挑戰(zhàn)這樣的技術(shù),大家都把它當(dāng)成一個(gè)標(biāo)準(zhǔn)。
其實(shí)你可以看到隨著現(xiàn)在算力的進(jìn)步,包括大家研發(fā)方式的變化,從原來(lái)的偏學(xué)術(shù),單純從 idea 出發(fā)的研究,到變成現(xiàn)在更加重視與工程的結(jié)合,然后可以設(shè)計(jì)非常。扎實(shí)的這種規(guī)模化驗(yàn)證實(shí)驗(yàn),從而讓你能得到非常扎實(shí)的結(jié)論,所以很多以前認(rèn)為是標(biāo)準(zhǔn)的東西,現(xiàn)在都是可以被挑戰(zhàn)的,所以我們通過(guò)一系列的新的模型架構(gòu)和我們的開源,讓全世界更多的人能夠去獲取新的技術(shù),從而推進(jìn)整個(gè)領(lǐng)域的發(fā)展。
可以看到,我們通過(guò)開源模型也逐漸成為了新的標(biāo)準(zhǔn)。這是兩張從 NVIDIA 最新 GTC 2026黃仁勛主題演講中里面摘取的幻燈片,所以你也可以看到就是像以 Kimi 為代表的很多模型,其實(shí)現(xiàn)在。正在全世界所有的模型廠商的評(píng)測(cè)里面作為一個(gè)標(biāo)準(zhǔn),就是你如果要發(fā)布一個(gè)新的芯片,那你必須要通過(guò) Kimi 或者其他的開源模型來(lái)評(píng)測(cè)你的性能的提升。然后包括全世界很多研究機(jī)構(gòu)也在用Kimi K2.5或者是其他的開源模型去進(jìn)行研究。
我覺得通過(guò)開源讓每一個(gè)企業(yè)、每一個(gè)研究者、每一個(gè)終端的用戶能非常低門檻的獲取智能,是一個(gè)非常重要的事情。同時(shí)我們?cè)谶@里面也做很重要的很多創(chuàng)新,包括我剛提到的很多新的架構(gòu),使得說(shuō)這些技術(shù)它都是開放的,可以被任何人所獲取,然后大家能夠去形成一個(gè)生態(tài)系統(tǒng),一起去推動(dòng) AI 領(lǐng)域的發(fā)展。
大模型領(lǐng)域仍在快速發(fā)展,現(xiàn)在的研發(fā)方式跟兩三年之前會(huì)有很大的不同。
三年之前更多的是大家使用天然數(shù)據(jù),也就是你從整個(gè)互聯(lián)網(wǎng)獲取的數(shù)據(jù),加上一些少量的人工標(biāo)注,你要去標(biāo)注某一條數(shù)據(jù)。它到底是不是符合你的價(jià)值觀或者偏好?
到去年大家更加重視一個(gè)大規(guī)模的強(qiáng)化學(xué)習(xí)系統(tǒng),在這里面人是去篩選里面高質(zhì)量的任務(wù),但是這些任務(wù)還是由人來(lái)確定的,然后通過(guò)在這些任務(wù)上做強(qiáng)化學(xué)習(xí)得到更好的效果。可以看到大家就是在編程或者數(shù)學(xué)這些領(lǐng)域上得到的提升,其實(shí)主要來(lái)自于這種技術(shù)路線。
但是從今年到明年以及接下來(lái)的若干年的時(shí)間內(nèi),整個(gè) AI 研究和研發(fā)的方式會(huì)發(fā)生重大的變化,會(huì)有更多的是 AI 去主導(dǎo)研究。每個(gè)研究員他會(huì)配備非常多的 AI 的 TOKEN, 然后這些 AI 的 TOKEN 可以幫你去合成新的任務(wù),然后去幫你合成新的環(huán)境,去幫你定義在環(huán)境下面到底什么樣是最好、最合適的獎(jiǎng)勵(lì)函數(shù),甚至去幫你探索新的網(wǎng)絡(luò)架構(gòu)可能長(zhǎng)什么樣。所以在這樣的前提下,整個(gè) AI 的研發(fā)也會(huì)逐漸加速,所以 Kimi 希望也能夠跟整個(gè)開源社區(qū)一起,去不斷的把智能的技術(shù)往前推進(jìn),打造一個(gè)更加好的生態(tài)系統(tǒng)。
感謝大家。
