![]()
眨眼間,2026年2月了,
AI界的春節(jié),
真的是模型下餃子。
當(dāng)下,有三件事值得看,
1. ClaudeOpus4.6(閉源)
+Claude Sonnet 4.6(閉源)
![]()
2. GPT-5.3-Codex(閉源)
+ Germini 3.1 Pro(閉源)
3. KimiAgent產(chǎn)品
+Kimi K2.5模型(開源)
![]()
畢竟,閉源模型能知道的不多,
也就開源的有技術(shù)報(bào)告可以挖挖。
這一次,我和以下專家進(jìn)行討論:
武漢人工智能研究院研究員朱貴波博士,
華為盤古大模型核心算法工程師,
阿里云無影AgentBay工程師,
波士頓動(dòng)力(Boston Dynamics)強(qiáng)化學(xué)習(xí)算法工程師,
一位Kimi的產(chǎn)品同學(xué)。
我尊重專家的匿名意愿。
![]()
幾個(gè)核心觀察,
1.Agentic模型已是當(dāng)下主流,打法是啥?
有別于此前(約12個(gè)月前)的推理模型,
大模型公司沒有拿得出手的這類Agentic模型,
面子砸在地板上。那打法是啥?
![]()
第一,如果模型與產(chǎn)品的協(xié)同得不好,
模型就會(huì)替代產(chǎn)品,
甚至“蠶食”產(chǎn)品功能。
Cursor被ClaudeCode賦予了更強(qiáng)的產(chǎn)品能力,
但是ClaudeCode出來也快干掉Cursor了。
包括Claude Cowork問世,
也干掉了一些創(chuàng)業(yè)公司。
模型能力增長干掉產(chǎn)品,干掉創(chuàng)業(yè)公司,
在AI圈不是新聞。
當(dāng)然,Agentic模型還有更大的甜點(diǎn),
在于和MaaS平臺(tái)協(xié)同,這個(gè)此處按下不表,
另篇他論。
第二,模型和產(chǎn)品協(xié)同得好,
模型讓產(chǎn)品贏在起跑線。
Agentic模型為提高了產(chǎn)品贏的概率,
產(chǎn)品經(jīng)理有機(jī)會(huì)做出更強(qiáng)的產(chǎn)品,
因?yàn)椋瑑?nèi)建的“執(zhí)行能力”在處理復(fù)雜任務(wù)上,
比從產(chǎn)品層面處理,高了一個(gè)維度。
Agentic模型的這種訓(xùn)練,
不僅有目的,而且有針對(duì)性,
這個(gè)思路的效果,在KimiAgent產(chǎn)品上能看到。
整體上,是存在模型往上螺旋上升,
蠶食產(chǎn)品的現(xiàn)象,
所以,產(chǎn)品只能被逼著繼續(xù)往上去卷新的場景。
但是到底哪個(gè)速度更快?
哪個(gè)影響力更大?尚未定論。
2.很多老金礦的價(jià)值,誰都不能低估。
第一,強(qiáng)化學(xué)習(xí)是口老金礦,
單輪反饋強(qiáng)化學(xué)習(xí)卷完,卷Agentic RL,
Kimi和Anthropic在卷群體智能強(qiáng)化學(xué)習(xí),
Opus 4.6模型和Kimi K2.5模型都用到了。
群體智能強(qiáng)化學(xué)習(xí)思路很簡潔,
但是怎么實(shí)現(xiàn)成為關(guān)鍵,
理論牛不牛似乎不在是決定性,
誰能用極致工程能力做出來,
在更大的規(guī)模上做出來,效果好,誰才牛。
![]()
第二,與視覺模態(tài)融合也是老金礦,
視覺給模型加持能力,
本質(zhì)是模態(tài)融合得好,
理解能力進(jìn)一步提高,
場景價(jià)值也能突顯,
比如,Agent這個(gè)場景,
它會(huì)因?yàn)橐曈X的存在更加智能。
篇幅有限,挑重點(diǎn)講,后面再寫。
![]()
Agentic模型到底在卷什么?
先談Agentic模型,
也就是專注Agent的這種,
不是光吐字那種,
比如,KimiAgent在辦公場景
(牛馬大戰(zhàn)PDF/Excel等),
直接6到飛起。
不用Ctrl+C按到手抽筋了,
這里的干活是指動(dòng)手干辦公室臟活累活(任務(wù)),
不是吐字寫稿那種。
我有一個(gè)word列表,每年都整理,
文章標(biāo)題,發(fā)稿時(shí)間,閱讀量,點(diǎn)贊數(shù)……
全年的量也不少,
再讓我手動(dòng)粘成excel表,
想得美,
我的耐心,
已經(jīng)在做Word文件的時(shí)候用完了。
這事必須AI來。
好處享受了,看看原理。
Kimi K2.5模型開源了,還配有技術(shù)報(bào)告:
《Kimi K2.5: Visual Agentic Intelligence》。‘
![]()
Kimi的節(jié)奏一向很快,
早在2025年11月中旬,
Kimi Agent的底層模型,
還是Kimi K2 Thinking模型,
到2025年12月的時(shí)候,
Kimi的Agent模式的底層模型是
Kimi K2.5。
可以看到,K2.5是典型的Agentic模型。
這模型有啥好?
當(dāng)然,我可以捏著鼻子,
學(xué)ChatGPT說話:
“這類大模型性能的提升,
標(biāo)志著人工智能向自主,
深度思考,工具協(xié)作的方向邁出了重要一步。”
Agentic模型為啥強(qiáng)?
在我眼里,大模型的本質(zhì)就是,
你喂給它啥,它就會(huì)啥。
你想讓它會(huì)使用工具,
那就給它喂調(diào)用工具的數(shù)據(jù)。
當(dāng)下是這類模型的時(shí)間窗口期,
廠商為了搶奪排位,又不少花錢,
沒有萬卡,很難加入戰(zhàn)斗。
而譚老師我買Claude Code會(huì)員的錢,
都快要辦分期了。
造的人和用的人都狠狠花錢,
AI再繼續(xù)漲價(jià),人類可能要從昂貴的AI手里,
把失去的工作搶回來了。
聊完錢,再聊能力。
Agentic能力變強(qiáng)到底指啥能力變強(qiáng)?
指的是模型在干活的時(shí)候,
如何自己拿主意干活,
如何分步驟思考
如何把活干完,
數(shù)據(jù)就需要是:
工具怎么調(diào)用來的?調(diào)用的結(jié)果是啥?
你想讓它按步驟干活,
那干的活需要分哪幾個(gè)步驟等等。
總結(jié)下來就是:
第一,干活前,分解規(guī)劃:拆任務(wù),拆步驟;
第二,多個(gè)工具一起干活,
該用哪個(gè)工具,還用得好。
第三,在相對(duì)長的時(shí)間內(nèi),執(zhí)行多輪交互的任務(wù)。
第四,任務(wù)中,能來回調(diào)整,干出好結(jié)果。
這四個(gè)能力怎么訓(xùn)練得到,就得廠商各自摸索。
常見的技術(shù):
多任務(wù)管理、跨模態(tài)處理、長時(shí)推理。
目標(biāo)都是提高模型干活時(shí)的能力。
![]()
過程就是把干活的那個(gè)結(jié)果寫訓(xùn)練到模型里面。
Kimi產(chǎn)品同學(xué)說得很中肯,
“Kimi的Agent模式有了智能體的這種智能感”,
他也謙虛地說:
“但是,絕大多數(shù)有生產(chǎn)力價(jià)值的這種場景,
其實(shí)AI還是沒有服務(wù)得很好。
最核心的是,把模型能力做好,
排在對(duì)產(chǎn)品差異化的考慮之前。”
聽他這么說,相信Kimi內(nèi)部,
對(duì)于模型和產(chǎn)品的博弈哲學(xué)有很深的思考。
![]()
強(qiáng)化學(xué)習(xí)這口老金礦,Kimi怎么挖的?
智能體從串行到并行了?
不能這么說。為此,
我請(qǐng)教了波士頓動(dòng)力公司強(qiáng)化學(xué)習(xí)算法工程師,
他這樣告訴我:
群體智能(Swam)不是新概念。
本質(zhì)上,智能體可以是一個(gè)比較強(qiáng)的中央式系統(tǒng)。
而這種多智能體系統(tǒng)是什么樣的呢?
首先,有一個(gè)比較強(qiáng)的中央系統(tǒng),
再加上一堆執(zhí)行器,
你可以理解為,它大腦很強(qiáng)。
但是,實(shí)際去執(zhí)行工作的那些末端,
是飛機(jī)也好,是機(jī)器人也好,
甚至是一些小東西,
比如這些個(gè)程序也好,
所執(zhí)行的東西并不復(fù)雜。
像Anthropic公司的Opus 4.6那樣,
它主要的工作其實(shí)是調(diào)度各種模型的過程。
這個(gè)調(diào)度本身并不復(fù)雜,
關(guān)鍵在于每個(gè)模型本身的執(zhí)行能力,
這些模型每個(gè)都非常強(qiáng)大。
以前的智能體,每個(gè)智能體的算力可能沒那么強(qiáng),
更多是依靠“大腦”來給它們?cè)敿?xì)具體指令,
甚至包括一些細(xì)微的操作。
指導(dǎo)不細(xì),干不好。
現(xiàn)在的這種智能體,你可以理解為,
它們之間的交流,
更像更接近于人與人之間的交流方式了。
這是因?yàn)楸倔w智能的能力的上限不斷提升,
同時(shí),能夠完成的任務(wù)周期時(shí)間也會(huì)越來越長。
所以說,智能體通過這樣的協(xié)作的模式的轉(zhuǎn)變,
辦事方式有變化。
過去的智能體怎么辦事呢?
一個(gè)智能體在那吭哧吭哧搞很久很久。
但是,這么玩是有上限的,
任務(wù)的復(fù)雜度不可能是非常高。
而現(xiàn)在挑戰(zhàn)不同了,
寫一個(gè)編譯器(Compiler)。
那么復(fù)雜的工作,僅僅通過一條提示詞,
或者說現(xiàn)在單個(gè)智能體能干的活,
以前的智能體做不到,因?yàn)樯想y度了。
編譯器現(xiàn)在被Anthropic做到了,
雖然這是一個(gè)昂貴實(shí)驗(yàn)(2萬美元)。
![]()
在這個(gè)背景下的話,
你如何把多個(gè)智能體的智力按什么方式融合。
我覺得,在這個(gè)時(shí)間點(diǎn)上的話,
大家都已經(jīng)在往這個(gè)群體智能的方向去想了。
另外,本質(zhì)上,
這也是一種Scaling(規(guī)模擴(kuò)展)技術(shù).
過去,我們?cè)跀U(kuò)展能力時(shí),
主要是通過增加模型的上下文長度
(Context length),
和擴(kuò)展模型的參數(shù)量來實(shí)現(xiàn)。
現(xiàn)在,擴(kuò)展的重點(diǎn)變成了增加智能體的數(shù)量。
以前有過討論:如果我投入相同的算力,
是應(yīng)該擴(kuò)展智能體的數(shù)量,
還是應(yīng)該擴(kuò)大每個(gè)子智能體的規(guī)模,
讓它們具備更強(qiáng)的記憶能力?
這兩種方式大家都探索過很多,
很值得繼續(xù)討論,
如果你有好觀點(diǎn),也歡迎探討交流。
再細(xì)看Kimi K2.5,
會(huì)發(fā)現(xiàn)一個(gè)有意思的點(diǎn):
K2.5的Agent Swarm,
有一個(gè)Orchestrator(可訓(xùn)練編排器)
每個(gè)智能體都被分配了具體的任務(wù)。
比如,AI研究員、物理研究員、
生命科學(xué)研究員等,
這是中心化的思路。
![]()
每個(gè)智能體的訓(xùn)練目標(biāo)是幫助整體群體完成任務(wù),
而不是單獨(dú)優(yōu)化自身行為。
這個(gè)獎(jiǎng)勵(lì)函數(shù)用來衡量群體任務(wù)完成的質(zhì)量,
由三個(gè)方面組成。
首先是并行度,任務(wù)越多、
智能體能同時(shí)完成的子任務(wù)越多,獎(jiǎng)勵(lì)就越高。
其次是每個(gè)子任務(wù)完成的情況,
任務(wù)完成得越好,獎(jiǎng)勵(lì)越高。
最后是整體任務(wù)的完成情況,
如果整體任務(wù)成功了,獎(jiǎng)勵(lì)就越大。
獎(jiǎng)勵(lì)也不是簡單的累計(jì)。
并行度和子任務(wù)完成度兩個(gè)方面的獎(jiǎng)勵(lì)
有兩個(gè)權(quán)重,一個(gè)叫λ1,一個(gè)叫λ2。
接下來調(diào)整權(quán)重,
最后,還是以總體任務(wù)的成功率為準(zhǔn),給獎(jiǎng)勵(lì)。
另外,資源限制方面,就是任務(wù)也不能無限多。
而Kimi K2.5訓(xùn)練數(shù)據(jù)的獲取方式,
主要是通過合成的方式,
即拿到“提示詞訓(xùn)練集”(Prompt Construction)。
Kimi K2.5展現(xiàn)了群體智能的潛力,
好巧不巧,這點(diǎn)和Opus 4.6,
“英雄所干略同”。
![]()
![]()
視覺是一等公民了嗎?
我們接著聊,
譚老師我歷來把視覺作為重點(diǎn),
從未敢輕視。
有文章為證《2023年終盤點(diǎn):圖文大模型編年簡史》
Kimi K2.5也把視覺視為重點(diǎn),
你在知乎上好好看看Kimi的VLM算法小哥哥寫的感想,
發(fā)自內(nèi)心的成就感,噴薄而出。
反觀有的大廠,GitHub口碑真是不忍直視。
其實(shí),Kimi K2.5技術(shù)報(bào)告有幾個(gè)重點(diǎn):
一個(gè)是視覺,一個(gè)是群體智能;
你說是什么超級(jí)革新的方法嗎?
表面上看都不是,
專家笑談:“這個(gè)方法雖然大家都知道,
但是真正訓(xùn)出來的,也沒幾家。”
我始終認(rèn)為,視覺是一個(gè)要死磕的技術(shù)路線,
最堅(jiān)定的追隨者,非谷歌Gemini莫屬,
人家從頭到尾,一路死磕融合。
Nano、Banana這些小模型做PPT,
畫圖、文生圖效果賊穩(wěn),
現(xiàn)在連學(xué)生寫論文都用Gemini畫流程圖了
那些字、那些示意框,比以前準(zhǔn)太多。
提示詞遵循得特別好,
畫流程圖時(shí)字在哪、
箭頭怎么指都明明白白。
這也是同一棵果樹上摘的果子(重視視覺融合)。
Kimi這次也是摘到果子了。
他們的算法工程師,
不認(rèn)為K2.5是一個(gè)傳統(tǒng)意義上的VLM。
MoonViT這個(gè)架構(gòu),
對(duì)前序工作借鑒的基礎(chǔ)上,
數(shù)據(jù)上下的功夫也不少,
扛住了預(yù)訓(xùn)練視覺數(shù)據(jù)15T總訓(xùn)練量的規(guī)模,
圖片是2維,視頻3維,
給視覺提供了多一維度的信息量,
只要能處理的好額外學(xué)習(xí)時(shí)序和動(dòng)態(tài)這部分獨(dú)特的能力,
性能可按預(yù)期提升。
K2.5所用的方法,
總是深思熟慮且實(shí)用,
比如,用一個(gè)極小的輸入來激活視覺能力,
這樣不僅有效,
且避免了傳統(tǒng)方法中,
對(duì)大量視覺數(shù)據(jù)的依賴。
通過冷啟動(dòng),讓模型能夠迅速啟動(dòng)視覺能力,
使得視覺信息直接融入到文本推理過程當(dāng)中。
用有限的數(shù)據(jù)量,
激活視覺能力。
![]()
這樣,有了K2 Thinking的能力,
(也就是上一版發(fā)純文本模型的能力),
視覺能力強(qiáng),
Tool use能力也很強(qiáng)。
力圖多訓(xùn)練出一個(gè)維度,
性能就上一個(gè)大臺(tái)階。
雖然阿里Qwen模型先發(fā)優(yōu)勢極大,
而Kimi呈現(xiàn)出強(qiáng)勢的追趕勢頭。
有好看的了。
![]()
One More thing
思考得科幻一些,
AI寫代碼的產(chǎn)品從第一天起,
就是Agent形態(tài)的,
未來,代碼模型和Agent模型,
是否可能會(huì)匯合成一套,
反正模型也是把API視為工具的一種,
如果匯合成為一個(gè)大類,
而這一類大大有別于大語言模型,
也就是說,這兩類可能會(huì)走出模型差異化的道路。
AI的世界,卷卷更精彩。
(放一些PPT成果)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.