從DeepSeek的訓(xùn)練方法論到Kimi的核心網(wǎng)絡(luò)突破,中國(guó)AI正從開源路線的跟隨者變?yōu)橐I(lǐng)者,在GTC舞臺(tái)上與黃仁勛共議Token經(jīng)濟(jì)學(xué)——這場(chǎng)由效率和創(chuàng)新驅(qū)動(dòng)的新紀(jì)元,中國(guó)已穩(wěn)穩(wěn)確立航標(biāo)。
———— / BEGIN / ————
“Token是新的大宗商品。”
這是黃仁勛在GTC 2026年度開發(fā)者大會(huì)上的判斷。
趨勢(shì)已經(jīng)形成:無(wú)形的海量Token順著網(wǎng)線,賣到了全球各地,就像有形的大宗商品通過(guò)輪船、路網(wǎng)賣到全球各地一樣。
其中,中國(guó)的Token,最近在海外賣瘋了。
全球最大的AI模型API聚合平臺(tái)OpenRouter數(shù)據(jù)顯示,2月16日-2月22日一周時(shí)間里,中國(guó)模型的周調(diào)用量高達(dá)5.16萬(wàn)億Token,而同期美國(guó)模型調(diào)用量只有2.7萬(wàn)億Token。
平臺(tái)調(diào)用量排名前五的大模型,四款是中國(guó)的,分別為MiniMax的M2.5、月之暗面的Kimi K2.5、智譜的GLM5以及DeepSeek的V3.2。
外國(guó)人正在用真金白銀選擇中國(guó)AI大模型。
跨越性價(jià)比,邁入底層創(chuàng)新
早期,海外市場(chǎng)對(duì)中國(guó)模型的青睞或許始于“物美價(jià)廉”的Token。
但今年以來(lái),中國(guó)團(tuán)隊(duì)已經(jīng)開始在最基礎(chǔ)的架構(gòu)上,改寫AI 研發(fā)的底層邏輯。
最近,月之暗面團(tuán)隊(duì)發(fā)布的論文《Attention Residuals》就是這一趨勢(shì)的代表,直接動(dòng)搖了Transformer架構(gòu)中沿用近十年的基石——?dú)埐钸B接。
自2015年何愷明提出ResNet以來(lái),殘差連接以其“將輸入直接加到輸出上”的樸素邏輯,成為幾乎所有深度神經(jīng)網(wǎng)絡(luò)的標(biāo)配。
然而,這種固定權(quán)重、均勻累加的機(jī)制,像一臺(tái)沒(méi)有篩選功能的信息攪拌機(jī)。早期層計(jì)算出的寶貴特征,在向深層傳遞時(shí),其相對(duì)貢獻(xiàn)度隨深度衰減,最終被淹沒(méi)在后續(xù)層輸出的“噪聲”中。
《Attention Residuals》打破了這個(gè)十年未動(dòng)的默認(rèn)配置。它為每一層配備一個(gè)可學(xué)習(xí)的查詢向量(query),讓該層根據(jù)當(dāng)前處理的內(nèi)容,動(dòng)態(tài)決定最需要參考哪些前序?qū)拥慕Y(jié)果。
就像是給每一層加了一部手機(jī),遇到具體需求時(shí),能隨時(shí)精準(zhǔn)查詢上面任何一層自己所需的數(shù)據(jù)。
這種回歸第一性原理的改進(jìn),相比傳統(tǒng)殘差連接,節(jié)省了約 20%的計(jì)算量,但其意義顯然更為深遠(yuǎn)。
這也是為何向來(lái)推崇“打破常規(guī)”的馬斯克會(huì)對(duì)其公開點(diǎn)贊,前Open AI 聯(lián)合創(chuàng)始人Karpathy 也在看完研究后,發(fā)出需要“重新理解架構(gòu)”的感慨。
這說(shuō)明,大模型的架構(gòu)優(yōu)化和技術(shù)創(chuàng)新已經(jīng)從 Attention、MoE 這些上層模塊,深入到了最底層的殘差連接。
而在大模型最硬核的技術(shù)深水區(qū)里,中國(guó)AI正在穩(wěn)穩(wěn)確立自己的新航標(biāo)。
![]()
堅(jiān)持開源,貢獻(xiàn)中國(guó)突破
在過(guò)去一年,中國(guó)大模型已經(jīng)不是偶發(fā)的“單點(diǎn)突破”,而是集群發(fā)力。
全球業(yè)界已經(jīng)清晰地意識(shí)到,創(chuàng)新的發(fā)源地正在東移。
![]()
海外科技評(píng)論人Tuki發(fā)文稱,去年1月,Deepseek靠極致的推理成本和R1震撼了硅谷。緊接著,Kimi帶著更優(yōu)的運(yùn)行成本來(lái)了。
這背后其實(shí)隱藏著一條更宏大的主線:當(dāng)下全球 AI 的競(jìng)爭(zhēng),本質(zhì)上已經(jīng)不僅是地域之間的角力,更是“開源”與“閉源”路線的交鋒。
作為全球開源模型的代表,DeepSeek帶來(lái)了訓(xùn)練方法論的創(chuàng)新,Kimi則從核心網(wǎng)絡(luò)架構(gòu)突破。
正是這種扎根底層的開源創(chuàng)新,賦予了中國(guó)團(tuán)隊(duì)在全球頂級(jí)科技舞臺(tái)上的話語(yǔ)權(quán)。比如,Kimi創(chuàng)始人楊植麟成為本屆 GTC唯一受邀現(xiàn)場(chǎng)演講的獨(dú)立大模型公司創(chuàng)始人。
在GTC的主舞臺(tái)上,他圍繞Token效率、長(zhǎng)文本、Agent集群,全面披露了開源模型K2.5的技術(shù)路線。
這向全球傳遞了一個(gè)非常明確的信號(hào):中國(guó)的AI創(chuàng)新者不僅在跟隨,更在引領(lǐng)創(chuàng)新。
在大模型的訓(xùn)練方法、模型架構(gòu)等方面,中國(guó)AI不僅能夠取得原創(chuàng)性的創(chuàng)新成果,而且愿意以開源的方式回饋全球開發(fā)者。
價(jià)值重估,現(xiàn)金飛輪轉(zhuǎn)不停
全球?qū)χ袊?guó)AI創(chuàng)新能力的認(rèn)可,最直觀的映射在資本市場(chǎng)。簡(jiǎn)單來(lái)說(shuō),技術(shù)愿景最終需要真金白銀的投票。反映到資本市場(chǎng)上,就是估值提高。
二級(jí)市場(chǎng)上,今年剛上市的智譜、Minimax股價(jià)屢創(chuàng)新高。
一級(jí)市場(chǎng)上,Kimi在不到3個(gè)月,先后完成3輪融資,估值翻4倍,達(dá)到180億美元(約1200億人民幣)。
這一融資節(jié)奏和體量,在當(dāng)下愈發(fā)慎重的資本市場(chǎng)環(huán)境中,堪稱奇跡。
不過(guò),如果僅僅將其歸結(jié)為資本對(duì)某一家公司“技術(shù)護(hù)城河”的盲目追捧,顯然是天真的。
資本真正在押注的,是中國(guó)AI產(chǎn)業(yè)跑通的一條與硅谷截然不同的道路。
硅谷巨頭習(xí)慣了“大力出奇跡”,用天價(jià)的算力和數(shù)據(jù)去暴力喂養(yǎng)模型,這本質(zhì)上是一種粗放的“高耗電”模式。一旦進(jìn)入深水區(qū),極易被高昂的推理成本拖垮。
而以DeepSeek、Kimi為代表的中國(guó)團(tuán)隊(duì),走的是另一條路——在算法優(yōu)化和模型架構(gòu)上做到極致的精打細(xì)算。
無(wú)論是R1的訓(xùn)練方法,還是《Attention Residuals》對(duì)十年舊架構(gòu)的重構(gòu),本質(zhì)上都是發(fā)明了一種極低能耗、極高效率的“用電方式”。用更少的Token,榨取出了更高的模型智能。
在這個(gè)邏輯下,市場(chǎng)的投票也無(wú)比迅速。當(dāng)全球開發(fā)者和企業(yè)發(fā)現(xiàn),在這樣性價(jià)比的基座上運(yùn)行復(fù)雜任務(wù),不僅邏輯更穩(wěn),而且調(diào)用成本極低時(shí),流量與訂單便會(huì)激增。
這也解釋了,為什么Kimi在今年1月發(fā)布K2.5模型后,短短20天內(nèi)的商業(yè)收入,就超過(guò)了2025年的全年收入。
這種將技術(shù)突破轉(zhuǎn)化為開源基礎(chǔ)設(shè)施,同時(shí)又跑通商業(yè)飛輪的能力,才是支撐起中國(guó)大模型千億估值、并持續(xù)運(yùn)轉(zhuǎn)的原因。
黃仁勛在GTC上斷言,Token是新時(shí)代的大宗商品。
而歷史告訴我們,在大宗商品的全球貿(mào)易網(wǎng)絡(luò)中,最終掌握定價(jià)權(quán)和主導(dǎo)權(quán)的,往往不是擁有最多原始粗礦的玩家,而是擁有高效提煉與轉(zhuǎn)化技術(shù)的人。
當(dāng)5.16萬(wàn)億個(gè)中國(guó)Token順著網(wǎng)線流向全球,一個(gè)清晰的事實(shí)已經(jīng)浮出水面:
在這個(gè)由Token驅(qū)動(dòng)的新紀(jì)元里,中國(guó)AI正在以令人驚嘆的效率和創(chuàng)新,重構(gòu)全球智能算力的貿(mào)易版圖。
參考資料
[2603.15031] Attention Residuals https://arxiv.org/abs/2603.15031
Kimi楊植麟:很多普遍使用的技術(shù)標(biāo)準(zhǔn)正成為Scaling的瓶頸 https://m.thepaper.cn/newsDetail_forward_32787861
馬斯克驚嘆!DeepSeek和Kimi先后出手,捅破了Transformer的「潛規(guī)則」! https://mp.weixin.qq.com/s/BQNhy8vo1bMn5uNHyamYlQ
將注意力旋轉(zhuǎn) 90 度!今天,Kimi 的「注意力殘差」火了 https://mp.weixin.qq.com/s/rrWCapCip7PtYDHxMm73GA?scene=1
Kimi新架構(gòu)讓馬斯克嘆服!17歲高中生作者一戰(zhàn)成名 https://mp.weixin.qq.com/s/grWJ9EH_4RdeLymRetAT4w Attention
轉(zhuǎn)個(gè)方向,Transformer動(dòng)到了骨髓 https://mp.weixin.qq.com/s/gUk77lcu0wKk0Y-f1pH2Jg
估值1200億,Kimi融資破紀(jì)錄了 https://mp.weixin.qq.com/s/Yu3pGfrEBrL4yZk41o8cug
哥飛銳評(píng) kimi、MiniMax、Manus、Cursor - 小紅書 https://www.xiaohongshu.com/explore/69aaa0b60000000022032e7a?source=webshare&xhsshare=pc_web&xsec_token=ABrgGSSTkpeUbLZJmgcefNg8VQAZ5h1DF905Jb9Y6vFR0=&xsec_source=pc_share
深度丨2年,30倍,100億美元估值,一場(chǎng)比字節(jié)還快的極速增長(zhǎng) https://mp.weixin.qq.com/s/lMpNBzbSpu8bgQ2-_uFAdQ
月之暗面創(chuàng)始人楊植麟:中國(guó)技術(shù)不僅要好用還要參與制定規(guī)則,未來(lái)大模型要推出到K100 https://mp.weixin.qq.com/s/0QJhrwCbkL3nGXX8e5qjpA
黃仁勛GTC 2026演講全文:直指推理性能、“token經(jīng)濟(jì)學(xué)”、OpenClaw智能體革命…… https://mp.weixin.qq.com/s/Ta4jY8KfItjIVb82cW08aQ
20天收入超2025全年,龍蝦爆火的受益者Kimi能否彎道超車? https://mp.weixin.qq.com/s/mKkNhbKE4af6HWc-CMZWww?scene=1&click_id=8
本文來(lái)自公眾號(hào):非凡油條 作者:豆腐乳兒
想要第一時(shí)間了解行業(yè)動(dòng)態(tài)、面試技巧、商業(yè)知識(shí)等等等?加入產(chǎn)品經(jīng)理進(jìn)化營(yíng),跟優(yōu)秀的產(chǎn)品人一起交流成長(zhǎng)!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.