![]()
隨著 OpenClaw 在 2 月份的持續(xù)霸榜:
AI 行業(yè),似乎已經(jīng)提前進(jìn)入了以個人 Agent 為代表的「后 ChatGPT 時代」。
這印證了獨立 AI 基準(zhǔn)測試機構(gòu)「Artificial Analysis」的預(yù)測結(jié)論:2026,Agent 正在全面爆發(fā)。
近期,他們發(fā)布了對 AI 領(lǐng)域發(fā)展的全面總結(jié):《2025 年終 AI 發(fā)展報告》。
報告總結(jié)了過去一年,AI 行業(yè)在文本、語音、視頻、芯片等各項領(lǐng)域的進(jìn)展。
過去一年到底都發(fā)生了什么呢?一起看下吧。
01 行業(yè)概況
2025 年的五大 AI 行業(yè)趨勢如下:
1、推理模型已成行業(yè)常態(tài)。
2025 年初,OpenAI 的 o1 模型還是唯一的推理模型,但這一年里,各大實驗室紛紛推出自家的推理模型,如今這些模型已躋身最智能模型之列。
2、AI 行業(yè)的競爭正愈演愈烈。
2025 年,AI 格局發(fā)生了顯著變化:越來越多的公司加入戰(zhàn)局,推出自己的模型。展望 2026 年,這場競賽只會愈演愈烈,不會降溫。
3、AI 智能體起飛。
2025 年,AI 應(yīng)用迎來關(guān)鍵轉(zhuǎn)折點:從單查詢工作負(fù)載轉(zhuǎn)向多輪智能體任務(wù)。代碼智能體是這場變革的先行者,而 2026 年,智能體的應(yīng)用范圍有望擴展到更廣泛的企業(yè)級工作場景。
4、自然語言轉(zhuǎn)語音模型,正在催生語音智能體。
2025 年,原生音頻推理模型的發(fā)展讓語音轉(zhuǎn)語音質(zhì)量迎來了質(zhì)的飛躍,為語音 Agent 的興起奠定了基礎(chǔ)。
5、圖像編輯與視頻生成走向主流。
如今,這兩項技術(shù)已具備主流應(yīng)用的條件。以 NanoBanana 為代表的模型,讓畫質(zhì)實現(xiàn)了跨越式提升。
![]()
一些關(guān)鍵的洞察:
1、Google 依然是 AI 領(lǐng)域垂直一體化布局最深入的玩家:從 TPU 加速器到 Gemini 應(yīng)用,覆蓋了整個 AI 價值鏈。
![]()
2、AI 領(lǐng)域的競爭正變得越來越激烈。2025 年,一批新的國際實驗室將加入賽道,不過,美國和中國依然牢牢占據(jù)領(lǐng)先地位。
![]()
3、OpenAI 在 2025 年全年都擁有最強大的語言模型,但它的領(lǐng)先優(yōu)勢已前所未有的縮小。
![]()
02 語言模型
2025 年,推理范式主導(dǎo)了 AI 行業(yè)的發(fā)展方向。
它不僅推動智能水平大幅提升、成本持續(xù)下降,還催生出智能體 AI 的興起。與此同時,開源權(quán)重的普及和全球?qū)嶒炇业呐Γ诳s小與美國前沿機構(gòu)的技術(shù)差距。
2025 年的五大 AI 模型趨勢如下:
1、2025 年,模型智能迎來大幅提升。
背后的核心驅(qū)動是范式轉(zhuǎn)變:行業(yè)開始轉(zhuǎn)向那些在回答前會「思考」的推理模型。
到 2025 年底,OpenAI、Anthropic 和 Google 已憑借「推理優(yōu)先模型」領(lǐng)跑智能前沿,這類模型會先「思考」再給出答案。這與 2025 年初的格局截然不同:當(dāng)時占據(jù)最智能模型榜首的,還是那些不會「思考」的非推理模型。
與此同時,推理范式顯著擴大了平均工作負(fù)載規(guī)模:模型在「思考」階段會生成更多輸出 token。不僅如此,它還在通用推理、科學(xué)推理、長周期智能體任務(wù)以及編碼領(lǐng)域推動了性能提升。
2、2025 年見證了智能體 AI 的崛起。
各類模型開始越來越多地端到端完成長周期任務(wù)。
智能體的應(yīng)用場景正在不斷拓展:從最初針對特定領(lǐng)域(如深度研究)的定向工具,到如今已演變?yōu)橥ㄓ眯徒鉀Q方案。前沿模型現(xiàn)在能夠穩(wěn)定協(xié)調(diào)跨領(lǐng)域的多步驟工作流。
工具調(diào)用訓(xùn)練如今已全面普及:
2025 年推出的大多數(shù)模型,都經(jīng)過了預(yù)訓(xùn)練和強化學(xué)習(xí)優(yōu)化,專門用于智能體任務(wù)執(zhí)行。
長周期編碼任務(wù)是智能代理工作流改進(jìn)的最大受益者。2025 年,無論是初創(chuàng)企業(yè)還是行業(yè)巨頭都紛紛推出編碼代理,這類工具的數(shù)量明顯增多。
3、2025 年,基礎(chǔ)模型迎來了普及化浪潮,不過美國和中國仍保持顯著領(lǐng)先地位。
全球各地的 AI 實驗室(包括歐洲、中東、亞洲)仍在持續(xù)推出具備競爭力的基礎(chǔ)模型。
不過,前沿能力仍集中在美中兩國的頭部公司手中:美國有 OpenAI、Anthropic、Google,中國則是 Moonshot AI、Z.ai、DeepSeek、Minimax。
雖然美國實驗室在專有前沿模型的開發(fā)領(lǐng)域仍處于領(lǐng)先地位,但中國實驗室持續(xù)推出前沿開源權(quán)重模型。
4、2025 年,新的開源權(quán)重模型在智能水平上繼續(xù)與閉源模型并駕齊驅(qū),但前沿領(lǐng)域仍由閉源模型主導(dǎo)。
2025 年,開源權(quán)重生態(tài)系統(tǒng)持續(xù)擴張;到年底時,最具能力的開源權(quán)重模型已越來越多地出自中國實驗室。
另一方面,2025 年全年,開源權(quán)重模型大體上跟上了專有模型的發(fā)展節(jié)奏,但專有模型在整體智能水平上仍處于領(lǐng)先地位。
5、o1 級智能的成本出現(xiàn)了顯著下降。
2025 年初,o1 級智能的每 token 價格較之前下降了 128 倍。
編者注:最近,Sam Altman 宣布 AI 智能成本下降 1000 倍。
背后的驅(qū)動因素主要有兩個:一是小模型實現(xiàn)了更高的智能水平,二是軟硬件層面的優(yōu)化。
對于「語言模型」,一些關(guān)鍵的洞察:
1、截至 2025 年底,OpenAI、xAI 與 Anthropic 三家公司憑借最新推理模型,在前沿智能領(lǐng)域占據(jù)領(lǐng)先地位,與其他 AI 實驗室拉開了明顯差距。
![]()
2、2025 年推出的 AI 模型刷新了智能與成本的平衡邊界:企業(yè)現(xiàn)在要么能用相同預(yù)算獲得更強大的智能,要么能以顯著更低的成本獲取同等水平的智能。
![]()
3、模型規(guī)模越大,其全知指數(shù)評測分?jǐn)?shù)(AA-Omniscience)就越穩(wěn)定地處于高位。
編者注:AA-Omniscience 可以理解成「模型知道自己知道,也知道自己不知道什么」的能力得分。
![]()
4、但幻覺生成率與模型規(guī)模的關(guān)聯(lián)度并不高,這說明其他訓(xùn)練決策的影響其實更大。
![]()
5、2025 年是代碼智能體正式落地的一年;2026 年,則將迎來全能智能體的全面啟用。
![]()
6、當(dāng)我們轉(zhuǎn)向智能體工作流時,輸出 token 的數(shù)量多并不意味著智能更高;真正的智能更依賴于對各類工具的有效運用。
![]()
7、北京正崛起為前沿 AI 初創(chuàng)企業(yè)的活力中心,而成熟的科技巨頭則地理分布更分散,不存在單一的技術(shù)創(chuàng)新樞紐。
![]()
8、韓國政府支持的“國家 AI 計劃”已經(jīng)激活了本土 AI 生態(tài)系統(tǒng),催生出多家接近前沿水平的 AI 實驗室。
![]()
9、OpenAI 推出了自 GPT-2 以來首個開源權(quán)重語言模型,雖推動了開源模型的技術(shù)邊界,但開源與閉源之間的差距仍未縮小。
![]()
10、更高效的模型架構(gòu),加上軟硬件效率的協(xié)同提升,推動模型成本顯著下降:o1 級別智能模型的每 token 定價降低了 128 倍。
![]()
03 圖像與視頻
2025 年,圖像與視頻技術(shù)迎來重大升級:
新增了多模態(tài)輸入(圖像轉(zhuǎn)視頻、圖像編輯)以及輸出(帶音頻的視頻)功能。
2025 年的 AI 圖像與視頻領(lǐng)域的趨勢如下:
1、文生圖:畫質(zhì)再上新臺階。
文本生成圖像模型的質(zhì)量已顯著提升,2025 年末的標(biāo)桿模型 GPT Image 1.5,比 2024 年末的第一名 FLUX1.1 [pro] Ultra 高出約 150 個 ELO 評分。
隨著 OpenAI、Google 等頭部實驗室入局,開源權(quán)重圖像模型的進(jìn)展已經(jīng)放緩。截至年底,表現(xiàn)最好的開源權(quán)重模型是 Qwen Image 2512,在文本轉(zhuǎn)圖像排行榜上位列第 12 名。
2、圖像編輯模型正式發(fā)布。
指令驅(qū)動的圖像編輯模型近期開始流行。OpenAI 推出 GPT-4o 圖像功能、谷歌發(fā)布 Nano Banana(即 Gemini 2.5 Flash),這兩款產(chǎn)品的上線大幅提升了這類工具的使用率和用戶心智份額。
圖像編輯中的多圖輸入功能已逐漸普及,像 Nano Banana Pro 和 Qwen Image Edit 這類模型,能讓用戶對輸出圖像實現(xiàn)更精準(zhǔn)的控制。
圖像生成模型正變得越來越通用,既能支持文本生成圖像,也能進(jìn)行圖像編輯。例如 FLUX.2 系列和 Seedream 4.5 就同時具備這兩種模態(tài)的能力。
3、視頻模型已成功躋身主流。
視頻模型的質(zhì)量迎來突破性進(jìn)展。2025 年末的領(lǐng)先產(chǎn)品 Runway Gen-4.5,在 ELO 評分(一種常用的模型性能評級指標(biāo))上比 2024 年末的行業(yè)標(biāo)桿 OpenAI Sora 高出約 200 分。
聚焦圖像轉(zhuǎn)視頻功能推動了廣泛使用:用戶不僅能更精細(xì)地控制視頻生成,還能在不同鏡頭間保持角色的一致性。
開源權(quán)重視頻模型目前仍落后于閉源同類產(chǎn)品。其中,LTX-2 Pro 作為開源視頻生成領(lǐng)域的 SOTA,在文本轉(zhuǎn)視頻總榜中排名第 29 位,在圖像轉(zhuǎn)視頻總榜中則位列第 28 位。
4、Veo 3 起開始支持帶音頻的視頻功能。
2025 年 5 月推出的 Veo 3,是首個原生支持音頻生成的高質(zhì)量主流視頻模型,而這一特性讓它迅速走紅。
各大視頻實驗室紛紛跟進(jìn),推出了自家?guī)б纛l的視頻模型,比如 OpenAI 的 Sora 2、Lightricks 的 LTX-2、阿里巴巴的 Wan 2.6 和字節(jié)跳動的 Seedance 1.5 pro。
5、中國在媒體生成模型領(lǐng)域與美國旗鼓相當(dāng)。
中美實驗室在圖像生成模型領(lǐng)域依然旗鼓相當(dāng):字節(jié)跳動的 Seedream 4.5 能與谷歌的 Nano Banana Pro、OpenAI 的 GPT Image 1.5 一較高下。
中美實驗室在視頻生成模型領(lǐng)域依然勢均力敵:中國的 Kling 2.5 Turbo 與美國的 Veo 3.1、Runway Gen-4.5 不相上下。
編者注:到了 26 年 2 月份,中國的 Seedance2.0 讓世界望塵莫及。
6、與語言模型領(lǐng)域不同,專注于媒體生成的小型 AI 實驗室,仍能與那些擁有更廣泛模態(tài)覆蓋范圍的大型實驗室展開競爭。
![]()
![]()
04 語音與音樂
語音與音樂模型在第四季度持續(xù)進(jìn)步:
其中語音到語音推理,和開源權(quán)重語音轉(zhuǎn)文字的準(zhǔn)確率提升尤為顯著。
2025 年的 AI 語音與音樂領(lǐng)域的趨勢如下:
1、語音轉(zhuǎn)文字的詞錯誤率持續(xù)降低。
多模態(tài)模型正將轉(zhuǎn)錄作為次要功能進(jìn)行拓展,像 AWS 的 Nova 2 Omni,即便沒有專門優(yōu)化語音轉(zhuǎn)文本,也能達(dá)到有競爭力的準(zhǔn)確率,還能實現(xiàn)語音、視覺與文本的統(tǒng)一處理。
面向語音助手應(yīng)用的超低延遲實時版本已陸續(xù)出現(xiàn),例如 ElevenLabs 的 Scribe v2 Realtime 和 NVIDIA 的 Parakeet Realtime。
2、文本轉(zhuǎn)語音模型,現(xiàn)在能更精細(xì)地控制韻律和音頻效果。
文本轉(zhuǎn)語音的質(zhì)量已取得顯著提升,新模型持續(xù)迭代推出,不斷突破技術(shù)前沿。
韻律控制在主流 AI 模型中越來越普及,它能通過文本內(nèi)標(biāo)記和語音合成標(biāo)記語言(SSML)標(biāo)記等方式,實現(xiàn)對情感基調(diào)、語速、重音以及副語言元素(如笑聲、嘆氣、呼吸聲)的精準(zhǔn)控制。
語音克隆技術(shù)(包括名人語音合成)正日益普及,這促使人們通過水印技術(shù)和來源驗證系統(tǒng),更加重視音頻內(nèi)容的真實性。
3、原生音頻推理技術(shù)持續(xù)進(jìn)步,STS 模型也迎來快速成熟。
xAI 在 Big Bench Audio 基準(zhǔn)測試中一舉奪魁:不僅推理速度更快,還把此前的領(lǐng)頭羊 Google Gemini 2.5 Native Audio Thinking 拉下了王座;與此同時,Nova 2.0 Sonic 憑借高性價比脫穎而出,成為新的性價比之王。
目前,語音處理流水線仍是語音智能代理的主流架構(gòu)。但原生音頻推理能力的提升,正驗證著端到端音頻處理的價值:它能省去大語言模型的中間層,讓模型直接利用聲學(xué)信息進(jìn)行推理,既增強了上下文理解能力,又降低了延遲。
4、語音 Agent。
在結(jié)構(gòu)化交互場景下的表現(xiàn)已接近人類水平,但在模糊場景、復(fù)雜多輪推理以及音質(zhì)受損的環(huán)境中仍存在明顯不足,這些方面有待持續(xù)改進(jìn)。
5、音樂模型。
2025 年雖有不少重磅模型發(fā)布,但第四季度的頭部產(chǎn)品上新相對平靜。不過,Suno V4.5、ElevenLabs Music 及 Producer.ai 的 Fuzz 系列等頭部模型的營銷力度和用戶采用率仍在增長。
6、雖然通用 AI 實驗室(比如 OpenAI、谷歌)的產(chǎn)品覆蓋了所有語音模態(tài),但純語音 AI 實驗室的專注度更高,尤其是在文本轉(zhuǎn)語音領(lǐng)域。
![]()
05 芯片加速器
2025 年,AI 基礎(chǔ)設(shè)施迎來顯著成熟:Blackwell 系統(tǒng)開始批量出貨,推理軟件愈發(fā)完善,行業(yè)內(nèi)的挑戰(zhàn)者也在持續(xù)迭代升級。
2025 年的芯片相關(guān)趨勢如下:
1、Blackwell 系統(tǒng)正式投產(chǎn),性能較 Hopper 系統(tǒng)有大幅提升。
2025 年,B200 芯片開始大規(guī)模支撐生產(chǎn)級工作負(fù)載,GB200 NVL72 機架級系統(tǒng)也實現(xiàn)全面量產(chǎn)。IBM 的 Granite 4 系列模型是首批公開宣布基于 GB200 NVL72 集群訓(xùn)練的模型之一,而 OpenAI 的 GPT-5.3 Codex 則是首個明確披露使用 GB200 訓(xùn)練的前沿大模型。
英偉達(dá)計劃在 2025 年第三季度發(fā)布 B300 和 GB300 兩款新品,具體發(fā)貨時間將在后續(xù)公布。其中 B300 的配置升級顯著:配備 288GB HBM3e 內(nèi)存(較上一代 B200 提升 50%),F(xiàn)P4 精度運算能力達(dá) 14 PFLOPs(而 B200 僅為 9 PFLOPs)。
軟件支持日趨成熟(尤其是 TensorRT-LLM 框架),Blackwell 系列芯片現(xiàn)在在推理性能的整個帕累托前沿(即性能與效率的最優(yōu)權(quán)衡邊界)上,全面領(lǐng)先 Hopper 芯片及其他 AI 加速器。
2、推理軟件已向三大開源框架集中。
2025 年,推理軟件成熟度大幅提升,最終收斂到三個主流框架:vLLM、SGLang 和 NVIDIA TensorRT-LLM。
3、NVIDIA 依舊牢牢占據(jù)著市場主導(dǎo)地位,但它的挑戰(zhàn)者們已在戰(zhàn)略層面取得了顯著進(jìn)展。
2025 年 12 月,英偉達(dá)以約 200 億美元收購了 Groq 公司。交易采用 IP 授權(quán)加人才收購的模式,核心目標(biāo)是將 Groq 的 LPU 技術(shù)整合到英偉達(dá)的產(chǎn)品線中。
Google 的 TPU v6(Trillium,張量處理單元)已于 2024 年底正式發(fā)布;正是這些 TPU 為 Gemini 2.5 Pro 和 Gemini 3 Pro 的模型訓(xùn)練提供了算力支持。
Anthropic 在 2025 年與谷歌、亞馬遜達(dá)成合作協(xié)議,獲取張量處理單元(TPU)和 Trainium 芯片的使用權(quán),用于模型訓(xùn)練和推理任務(wù);與此同時,賽睿思(Cerebras)聯(lián)合英偉達(dá)、超威半導(dǎo)體(AMD)和博通,與 OpenAI 簽署了一份多年期合同,將為其提供快速推理服務(wù)。
![]()
4、推理需求持續(xù)增長,工作負(fù)載模式不斷演變。這兩大趨勢正推動分布式和解耦架構(gòu)在 2026 年前加速落地。
過去只有前沿實驗室才能用到的分布式推理優(yōu)化技術(shù),如今正變得人人可用。這背后離不開 NVIDIA Dynamo 的成熟,以及各類開源項目的推動。
其中的核心技術(shù)包括:預(yù)填充/解碼解耦、跨數(shù)十到數(shù)百個 GPU 的專家并行,以及通過規(guī)模化專家副本實現(xiàn)的新型負(fù)載均衡。
來源 | 特工宇宙(ID:AgentVerse)
作者 | 宇宙編輯部 ; 編輯 | 呼呼大睡
內(nèi)容僅代表作者獨立觀點,不代表早讀課立場
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.