337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

楊植麟 2026 中關(guān)村論壇演講:詳解 Kimi K2.5,以前的很多標(biāo)準(zhǔn),現(xiàn)在都可以被挑戰(zhàn)

0
分享至


3月25日,中關(guān)村論壇全體會(huì)議在北京舉行。 月之暗面(Moonshot AI)創(chuàng)始人楊植麟發(fā)表題為《開源AI:加速探索智能上限》的主題演講。演講聚焦大模型發(fā)展的“第一性原理”,楊植麟在會(huì)上深入解析了最新開源模型 Kimi K2.5的核心技術(shù)突破,在強(qiáng)調(diào)“規(guī)模化定律”的同時(shí),更核心地指向“如何高效地將能源轉(zhuǎn)化為智能”,并展示了其團(tuán)隊(duì)在架構(gòu)與協(xié)作模式上的創(chuàng)新突破。
展望未來(lái),楊植麟預(yù)測(cè)AI研發(fā)范式將迎來(lái)劇變:“從今年到明年以及接下來(lái)的若干年……會(huì)有更多的是AI去主導(dǎo)研究。” 研究員將配備海量AI資源,由AI協(xié)助合成任務(wù)、定義環(huán)境與獎(jiǎng)勵(lì)函數(shù),甚至探索新網(wǎng)絡(luò)架構(gòu),從而推動(dòng)整個(gè)領(lǐng)域加速發(fā)展。(袁寧)

以下為楊植麟演講全文:

大家好,今天很高興有機(jī)會(huì)能分享我們?cè)谧鲩_源模型,以及去訓(xùn)練更好的大模型領(lǐng)域做的很多最新的工作。

其實(shí)做大模型本質(zhì)上是把更多的能源轉(zhuǎn)化成智能,然后轉(zhuǎn)化的過(guò)程中最重要的事情是能夠去規(guī)模化,也就是說(shuō)能夠把盡可能多的能源,然后去經(jīng)過(guò)算力和模型去變成更多的更高程度的智能。

所以本質(zhì)上,規(guī)模化是過(guò)去若干年所有的模型和 AI 發(fā)展的一個(gè)很重要的基礎(chǔ)。

當(dāng)然,規(guī)模化并不是代表著我們只是去暴力的增加能源,或者去暴力的增加算力,而是涉及到我們?cè)趺丛谶@里面能夠非常有效的去進(jìn)行規(guī)模化,所以我們其實(shí)會(huì)從三個(gè)不同的方面去提高效率,比如說(shuō)我們會(huì)很強(qiáng)調(diào)去提升 TOKEN 的效率。

首先是 TOKEN 效率,本質(zhì)上是代表著說(shuō)你同樣的數(shù)據(jù)中能夠?qū)W到多少智能,因?yàn)檫@個(gè)世界上的有效的數(shù)據(jù)其實(shí)是一個(gè)常量,或者說(shuō)它是一個(gè)非常有限的值。那如果你有更好的網(wǎng)絡(luò)架構(gòu),或者有更好的優(yōu)化器,那么你就可以從一樣的數(shù)據(jù)里面學(xué)到更多的智能。

其次,同時(shí)我們也希望去提升更長(zhǎng)的上下文,在更長(zhǎng)的上下文的時(shí)候,可以在相同的情況下得到更低的損失函數(shù)(loss),模型可以實(shí)現(xiàn)更長(zhǎng)的輸出,完成更長(zhǎng)時(shí)和復(fù)雜的任務(wù)。所以我們也設(shè)計(jì)了一系列的網(wǎng)絡(luò)架構(gòu)(Kimi Linear) 去提升模型在長(zhǎng)上下文的表現(xiàn)。

第三,我們?cè)谧钚碌哪P?Kimi K2.5里面也提出了新的一種規(guī)模化的方法,就是通過(guò)引入多個(gè) agent 形成一個(gè) agent 集群或者叫 agent swarm 的概念,使得說(shuō)有很多個(gè) agent 可以一起去工作,然后通過(guò)這種

這是我們?cè)贙2.5里面研發(fā)出來(lái)的Agent 集群,它的一個(gè)效果可以看到橫坐標(biāo)是任務(wù)的復(fù)雜度,而縱坐標(biāo)是它的執(zhí)行時(shí)間,所以如果我們?cè)瓉?lái)只是用這種單一 agent 的方式進(jìn)行工作,你可以看到就是隨著任務(wù)的復(fù)雜度逐漸提升,它需要的完成時(shí)間是指數(shù)增加的。比如說(shuō)如果你完成一個(gè)非常復(fù)雜的任務(wù),比如如果想從頭去寫一個(gè)代碼倉(cāng)庫(kù),去實(shí)現(xiàn)一個(gè)很復(fù)雜的功能,那它可能需要幾天甚至幾周的時(shí)間。

但是如果我們能夠并行開啟,比如說(shuō)100個(gè) agent 去同時(shí)完成這個(gè)任務(wù),然后在過(guò)程中他們會(huì)有去進(jìn)行互相的協(xié)作,然后去互相的協(xié)調(diào)和規(guī)劃接下來(lái)應(yīng)該要做的事情,就跟一個(gè)人類的組織一樣,那么這個(gè)時(shí)候其實(shí)可以做到隨著任務(wù)復(fù)雜度的增加,執(zhí)行時(shí)間其實(shí)沒有太大的變化,那這樣的話也是意味著你可以在單位時(shí)間內(nèi)去完成更加復(fù)雜的任務(wù),使得原來(lái)一些完全不可能實(shí)現(xiàn)的任務(wù)變得有可能。

就像一個(gè)公司一樣,如果你想做一個(gè)非常艱難的一個(gè)事情,你要完成一個(gè)很復(fù)雜的一個(gè) mission, 比如說(shuō)從0到1建造一家100億或者1,000億美元的公司,那么你只靠一個(gè)人,可能要100年才能做出來(lái),那你在市場(chǎng)上是沒有競(jìng)爭(zhēng)力的,但這個(gè)時(shí)候如果你有100個(gè)人,或者200個(gè)非常聰明的人,能一起協(xié)作,那就有可能在短時(shí)間內(nèi)

所以通過(guò) Agent 集群我們可以實(shí)現(xiàn)規(guī)模化的輸入,比如說(shuō)你可以同時(shí)去調(diào)查幾百個(gè)不同的數(shù)據(jù)來(lái)源,在各種權(quán)威的這個(gè)數(shù)據(jù)源里面去尋找你要的答案。你也可以做規(guī)模化的輸出,比如說(shuō)你可以通過(guò)。剛才說(shuō)的這個(gè)數(shù)據(jù)來(lái)源可以去撰寫一個(gè)幾百頁(yè)的這樣的一個(gè)論文,或者去規(guī)模化的執(zhí)行或規(guī)模化的編排,通過(guò)這種方式去提升任務(wù)的復(fù)雜度。

同時(shí),我們也非常注重就是去提升,去研發(fā)更好的底層網(wǎng)絡(luò)架構(gòu)。這個(gè)是我們最新開源的一個(gè)模型架構(gòu),叫做注意力殘差(Attention Residuals),然后這項(xiàng)技術(shù)其實(shí)最主要的洞察就是一個(gè)來(lái)自于一個(gè)10年前的技術(shù),叫 Resnet, 或者叫殘差網(wǎng)絡(luò)連接。

在十年之前其實(shí)沒有任何人有辦法去訓(xùn)練深度的神經(jīng)網(wǎng)絡(luò),然后通過(guò)之前像何凱明等研究者去引入這種殘差網(wǎng)絡(luò),它可以讓模型去訓(xùn)練超過(guò),比如說(shuō)幾十、幾百層,你可以任意的去增加層數(shù),然后這種殘差結(jié)構(gòu)其實(shí)你可以認(rèn)為它是 LSTM 網(wǎng)絡(luò)的一個(gè)變種,只是說(shuō) LSTM 是應(yīng)用在時(shí)間的維度上,那殘差網(wǎng)絡(luò)它更多現(xiàn)在是應(yīng)用在深度上。然后使得說(shuō)你每一層可以用上一層的輸出,然后做一個(gè)函數(shù)的處理,得到當(dāng)前這一層的輸出。

那我們其實(shí)就是把一樣的類似的思路做一個(gè)自然的泛化,我們把注意力機(jī)制這種計(jì)算模式也是進(jìn)行一個(gè)90度的旋轉(zhuǎn),從原來(lái)只是應(yīng)用在時(shí)間軸上,現(xiàn)在我們可以把它應(yīng)用在深度上,所以當(dāng)你把注意力應(yīng)用到深度上之后,它其實(shí)有很多好處,比如說(shuō)就不僅僅只是基于前一層的輸出來(lái)進(jìn)行計(jì)算。而是你可以去結(jié)合之前的所有層的輸出進(jìn)行計(jì)算,那這樣你在優(yōu)化的時(shí)候就會(huì)有非常多的好處。這個(gè)圖是我們的整個(gè)架構(gòu)的體現(xiàn),就可以看到左邊是標(biāo)準(zhǔn)的殘差的結(jié)構(gòu),那右邊其實(shí)是最新的我們提出來(lái)的,并且開源的殘差結(jié)構(gòu),然后我們也設(shè)計(jì)了這種基于塊狀的這種殘差結(jié)構(gòu),使得說(shuō)它能夠非常高效的去提,去進(jìn)行實(shí)現(xiàn),能夠基本上在只有2%的這種額外的成本的情況下,能夠就非常大幅度的去提升它的效果。

就像我剛才說(shuō)的,大模型的第一性原理是規(guī)模化定律(Scaling Law),但我們不僅僅只是去暴力的做規(guī)模化,而是希望我們?cè)谶@里面規(guī)模化的同時(shí)也能夠去提升它的效率,所以我們一直是致力于研發(fā)更強(qiáng)的這個(gè)模型架構(gòu),使得說(shuō)它的 TOKEN 效率可以更高,比如說(shuō)像 Adam 優(yōu)化器或者像 attention 架構(gòu),或者像殘差連接這些都是有了8到11年的歷史的技術(shù)。這個(gè)在計(jì)算機(jī)領(lǐng)域其實(shí)是一個(gè)非常長(zhǎng)的時(shí)間,就過(guò)去十年的時(shí)間里面,其實(shí)沒有任何人能夠去挑戰(zhàn)這樣的技術(shù),大家都把它當(dāng)成一個(gè)標(biāo)準(zhǔn)。

其實(shí)你可以看到隨著現(xiàn)在算力的進(jìn)步,包括大家研發(fā)方式的變化,從原來(lái)的偏學(xué)術(shù),單純從 idea 出發(fā)的研究,到變成現(xiàn)在更加重視與工程的結(jié)合,然后可以設(shè)計(jì)非常。扎實(shí)的這種規(guī)模化驗(yàn)證實(shí)驗(yàn),從而讓你能得到非常扎實(shí)的結(jié)論,所以很多以前認(rèn)為是標(biāo)準(zhǔn)的東西,現(xiàn)在都是可以被挑戰(zhàn)的,所以我們通過(guò)一系列的新的模型架構(gòu)和我們的開源,讓全世界更多的人能夠去獲取新的技術(shù),從而推進(jìn)整個(gè)領(lǐng)域的發(fā)展。

可以看到,我們通過(guò)開源模型也逐漸成為了新的標(biāo)準(zhǔn)。這是兩張從 NVIDIA 最新 GTC 2026黃仁勛主題演講中里面摘取的幻燈片,所以你也可以看到就是像以 Kimi 為代表的很多模型,其實(shí)現(xiàn)在。正在全世界所有的模型廠商的評(píng)測(cè)里面作為一個(gè)標(biāo)準(zhǔn),就是你如果要發(fā)布一個(gè)新的芯片,那你必須要通過(guò) Kimi 或者其他的開源模型來(lái)評(píng)測(cè)你的性能的提升。然后包括全世界很多研究機(jī)構(gòu)也在用Kimi K2.5或者是其他的開源模型去進(jìn)行研究。

我覺得通過(guò)開源讓每一個(gè)企業(yè)、每一個(gè)研究者、每一個(gè)終端的用戶能非常低門檻的獲取智能,是一個(gè)非常重要的事情。同時(shí)我們?cè)谶@里面也做很重要的很多創(chuàng)新,包括我剛提到的很多新的架構(gòu),使得說(shuō)這些技術(shù)它都是開放的,可以被任何人所獲取,然后大家能夠去形成一個(gè)生態(tài)系統(tǒng),一起去推動(dòng) AI 領(lǐng)域的發(fā)展。

大模型領(lǐng)域仍在快速發(fā)展,現(xiàn)在的研發(fā)方式跟兩三年之前會(huì)有很大的不同。

三年之前更多的是大家使用天然數(shù)據(jù),也就是你從整個(gè)互聯(lián)網(wǎng)獲取的數(shù)據(jù),加上一些少量的人工標(biāo)注,你要去標(biāo)注某一條數(shù)據(jù)。它到底是不是符合你的價(jià)值觀或者偏好?

到去年大家更加重視一個(gè)大規(guī)模的強(qiáng)化學(xué)習(xí)系統(tǒng),在這里面人是去篩選里面高質(zhì)量的任務(wù),但是這些任務(wù)還是由人來(lái)確定的,然后通過(guò)在這些任務(wù)上做強(qiáng)化學(xué)習(xí)得到更好的效果。可以看到大家就是在編程或者數(shù)學(xué)這些領(lǐng)域上得到的提升,其實(shí)主要來(lái)自于這種技術(shù)路線。

但是從今年到明年以及接下來(lái)的若干年的時(shí)間內(nèi),整個(gè) AI 研究和研發(fā)的方式會(huì)發(fā)生重大的變化,會(huì)有更多的是 AI 去主導(dǎo)研究。每個(gè)研究員他會(huì)配備非常多的 AI 的 TOKEN, 然后這些 AI 的 TOKEN 可以幫你去合成新的任務(wù),然后去幫你合成新的環(huán)境,去幫你定義在環(huán)境下面到底什么樣是最好、最合適的獎(jiǎng)勵(lì)函數(shù),甚至去幫你探索新的網(wǎng)絡(luò)架構(gòu)可能長(zhǎng)什么樣。所以在這樣的前提下,整個(gè) AI 的研發(fā)也會(huì)逐漸加速,所以 Kimi 希望也能夠跟整個(gè)開源社區(qū)一起,去不斷的把智能的技術(shù)往前推進(jìn),打造一個(gè)更加好的生態(tài)系統(tǒng)。

感謝大家。

延伸閱讀
相關(guān)推薦
熱點(diǎn)推薦
15.6公里每秒!伴隨巨響聲,1噸重火球墜落美國(guó):擊穿房子屋頂

15.6公里每秒!伴隨巨響聲,1噸重火球墜落美國(guó):擊穿房子屋頂

肖茲探秘說(shuō)
2026-03-24 16:32:33
四天619次進(jìn)攻、6090人傷亡:俄春季攻勢(shì)為何高傷亡低戰(zhàn)果?

四天619次進(jìn)攻、6090人傷亡:俄春季攻勢(shì)為何高傷亡低戰(zhàn)果?

高博新視野
2026-03-25 08:00:28
黃文雅任深圳市政府副秘書長(zhǎng),此前任龍崗區(qū)委副書記

黃文雅任深圳市政府副秘書長(zhǎng),此前任龍崗區(qū)委副書記

南方都市報(bào)
2026-03-25 20:54:03
315晚會(huì)后,不出意外的話,這7樣?xùn)|西再“無(wú)人問(wèn)津”,白給也不要

315晚會(huì)后,不出意外的話,這7樣?xùn)|西再“無(wú)人問(wèn)津”,白給也不要

海豚女王
2026-03-25 04:16:54
三峽功臣、全國(guó)勞模陳文夫落馬,他打造的無(wú)縫大壩也沒堵住貪腐!

三峽功臣、全國(guó)勞模陳文夫落馬,他打造的無(wú)縫大壩也沒堵住貪腐!

至死不渝的愛情
2026-03-25 03:12:36
14億人集體買房,為什么最后買出了一個(gè)爛攤子?

14億人集體買房,為什么最后買出了一個(gè)爛攤子?

流蘇晚晴
2026-03-25 18:14:02
王曼昱見此消息定滿心悲痛,張雪峰曾許下承諾:請(qǐng)她做公司代言人

王曼昱見此消息定滿心悲痛,張雪峰曾許下承諾:請(qǐng)她做公司代言人

冷桂零落
2026-03-25 20:15:22
中美都在賭,美國(guó)賭中國(guó)不敢打日本,而中國(guó)則在賭美國(guó)不會(huì)下場(chǎng)

中美都在賭,美國(guó)賭中國(guó)不敢打日本,而中國(guó)則在賭美國(guó)不會(huì)下場(chǎng)

南權(quán)先生
2026-03-24 15:30:39
比亞迪又出黑科技,光伏天窗量產(chǎn)上車,或首搭“唐/漢”旗艦!

比亞迪又出黑科技,光伏天窗量產(chǎn)上車,或首搭“唐/漢”旗艦!

芭比衣櫥
2026-03-24 17:21:01
東北兩省書記省長(zhǎng)會(huì)見劉強(qiáng)東

東北兩省書記省長(zhǎng)會(huì)見劉強(qiáng)東

觀察者網(wǎng)
2026-03-25 21:43:37
85后寶媽長(zhǎng)期陪娃寫作業(yè)到半夜,竟遭遇“鬼剃頭” :孩子動(dòng)作慢,心里焦慮又睡不好,開始僅有手指肚大,現(xiàn)在已經(jīng)變成巴掌大斑禿了

85后寶媽長(zhǎng)期陪娃寫作業(yè)到半夜,竟遭遇“鬼剃頭” :孩子動(dòng)作慢,心里焦慮又睡不好,開始僅有手指肚大,現(xiàn)在已經(jīng)變成巴掌大斑禿了

觀威海
2026-03-25 08:59:11
國(guó)民黨大亂!馬英九緊急發(fā)聲、與鄭麗文決裂?蕭旭岑恐遭牢獄之災(zāi)

國(guó)民黨大亂!馬英九緊急發(fā)聲、與鄭麗文決裂?蕭旭岑恐遭牢獄之災(zāi)

趣文說(shuō)娛
2026-03-25 16:42:22
洛克希德·馬丁:將精確打擊導(dǎo)彈產(chǎn)量提升四倍

洛克希德·馬丁:將精確打擊導(dǎo)彈產(chǎn)量提升四倍

財(cái)聯(lián)社
2026-03-25 19:18:36
扒開張雪峰的家底才明白:他最厲害的不是報(bào)志愿,而是選對(duì)妻子

扒開張雪峰的家底才明白:他最厲害的不是報(bào)志愿,而是選對(duì)妻子

風(fēng)起見你
2026-03-25 10:40:24
上海一男子每天3包煙,持續(xù)幾十年!醫(yī)生:全身沒一根血管是好的

上海一男子每天3包煙,持續(xù)幾十年!醫(yī)生:全身沒一根血管是好的

上觀新聞
2026-03-24 13:32:07
張雪峰:?大學(xué)這倆證,?拼了老命也得給我考下來(lái)

張雪峰:?大學(xué)這倆證,?拼了老命也得給我考下來(lái)

熱點(diǎn)網(wǎng)友
2026-03-25 12:18:57
張雪峰搶救細(xì)節(jié)曝光!他認(rèn)識(shí)的副院長(zhǎng)參與搶救,用最好的救護(hù)手段

張雪峰搶救細(xì)節(jié)曝光!他認(rèn)識(shí)的副院長(zhǎng)參與搶救,用最好的救護(hù)手段

安寧007
2026-03-24 23:14:49
25日最新:美軍基地被炸視頻,在外網(wǎng)瘋傳,戰(zhàn)損比很驚人

25日最新:美軍基地被炸視頻,在外網(wǎng)瘋傳,戰(zhàn)損比很驚人

消失的電波
2026-03-25 16:52:47
為什么氰化物入口幾秒,還沒到胃呢,人立馬就會(huì)死了?

為什么氰化物入口幾秒,還沒到胃呢,人立馬就會(huì)死了?

心中的麥田
2026-03-24 19:53:20
特朗普幫了中國(guó)大忙,中國(guó)首次成為全球第一,日本完全被踩在腳下

特朗普幫了中國(guó)大忙,中國(guó)首次成為全球第一,日本完全被踩在腳下

有范又有料
2026-03-25 13:48:51
2026-03-26 00:39:00

科技要聞

紅極一時(shí)卻草草收?qǐng)觯琒ora宣布正式關(guān)停

頭條要聞

伊朗放話愿意與"主和派"萬(wàn)斯談 特朗普表態(tài)

頭條要聞

伊朗放話愿意與"主和派"萬(wàn)斯談 特朗普表態(tài)

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂(lè)要聞

張雪峰經(jīng)搶救無(wú)效不幸去世 年僅41歲

財(cái)經(jīng)要聞

管濤:中東局勢(shì)如何影響人民幣匯率走勢(shì)?

汽車要聞

智己LS8放大招 30萬(wàn)內(nèi)8系旗艦+全線控底盤秀實(shí)力

態(tài)度原創(chuàng)

健康
教育
本地
親子
公開課

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

教育要聞

寒門的缺點(diǎn)是自負(fù),優(yōu)點(diǎn)是敢拼

本地新聞

來(lái)永泰同安 赴一場(chǎng)春天的約會(huì)

親子要聞

深圳兩起幼兒園事故糾紛:比起磕碰,“信息差”才是真痛點(diǎn)!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版
×