網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

OpenClaw 霸榜，Agent 全面爆發(fā)的前夜

2026-03-13 08:10:19　來源: 互聯(lián)網(wǎng)早讀課

北京舉報

分享至

隨著 OpenClaw 在 2 月份的持續(xù)霸榜：

AI 行業(yè)，似乎已經(jīng)提前進(jìn)入了以個人 Agent 為代表的「后 ChatGPT 時代」。

這印證了獨立 AI 基準(zhǔn)測試機構(gòu)「Artificial Analysis」的預(yù)測結(jié)論：2026，Agent 正在全面爆發(fā)。

近期，他們發(fā)布了對 AI 領(lǐng)域發(fā)展的全面總結(jié)：《2025 年終 AI 發(fā)展報告》。

報告總結(jié)了過去一年，AI 行業(yè)在文本、語音、視頻、芯片等各項領(lǐng)域的進(jìn)展。

過去一年到底都發(fā)生了什么呢？一起看下吧。

01 行業(yè)概況

2025 年的五大 AI 行業(yè)趨勢如下：

1、推理模型已成行業(yè)常態(tài)。

2025 年初，OpenAI 的 o1 模型還是唯一的推理模型，但這一年里，各大實驗室紛紛推出自家的推理模型，如今這些模型已躋身最智能模型之列。

2、AI 行業(yè)的競爭正愈演愈烈。

2025 年，AI 格局發(fā)生了顯著變化：越來越多的公司加入戰(zhàn)局，推出自己的模型。展望 2026 年，這場競賽只會愈演愈烈，不會降溫。

3、AI 智能體起飛。

2025 年，AI 應(yīng)用迎來關(guān)鍵轉(zhuǎn)折點：從單查詢工作負(fù)載轉(zhuǎn)向多輪智能體任務(wù)。代碼智能體是這場變革的先行者，而 2026 年，智能體的應(yīng)用范圍有望擴展到更廣泛的企業(yè)級工作場景。

4、自然語言轉(zhuǎn)語音模型，正在催生語音智能體。

2025 年，原生音頻推理模型的發(fā)展讓語音轉(zhuǎn)語音質(zhì)量迎來了質(zhì)的飛躍，為語音 Agent 的興起奠定了基礎(chǔ)。

5、圖像編輯與視頻生成走向主流。

如今，這兩項技術(shù)已具備主流應(yīng)用的條件。以 NanoBanana 為代表的模型，讓畫質(zhì)實現(xiàn)了跨越式提升。

一些關(guān)鍵的洞察：

1、Google 依然是 AI 領(lǐng)域垂直一體化布局最深入的玩家：從 TPU 加速器到 Gemini 應(yīng)用，覆蓋了整個 AI 價值鏈。

2、AI 領(lǐng)域的競爭正變得越來越激烈。2025 年，一批新的國際實驗室將加入賽道，不過，美國和中國依然牢牢占據(jù)領(lǐng)先地位。

3、OpenAI 在 2025 年全年都擁有最強大的語言模型，但它的領(lǐng)先優(yōu)勢已前所未有的縮小。

02 語言模型

2025 年，推理范式主導(dǎo)了 AI 行業(yè)的發(fā)展方向。

它不僅推動智能水平大幅提升、成本持續(xù)下降，還催生出智能體 AI 的興起。與此同時，開源權(quán)重的普及和全球?qū)嶒炇业呐Γ诳s小與美國前沿機構(gòu)的技術(shù)差距。

2025 年的五大 AI 模型趨勢如下：

1、2025 年，模型智能迎來大幅提升。

背后的核心驅(qū)動是范式轉(zhuǎn)變：行業(yè)開始轉(zhuǎn)向那些在回答前會「思考」的推理模型。

到 2025 年底，OpenAI、Anthropic 和 Google 已憑借「推理優(yōu)先模型」領(lǐng)跑智能前沿，這類模型會先「思考」再給出答案。這與 2025 年初的格局截然不同：當(dāng)時占據(jù)最智能模型榜首的，還是那些不會「思考」的非推理模型。

與此同時，推理范式顯著擴大了平均工作負(fù)載規(guī)模：模型在「思考」階段會生成更多輸出 token。不僅如此，它還在通用推理、科學(xué)推理、長周期智能體任務(wù)以及編碼領(lǐng)域推動了性能提升。

2、2025 年見證了智能體 AI 的崛起。

各類模型開始越來越多地端到端完成長周期任務(wù)。

智能體的應(yīng)用場景正在不斷拓展：從最初針對特定領(lǐng)域（如深度研究）的定向工具，到如今已演變?yōu)橥ㄓ眯徒鉀Q方案。前沿模型現(xiàn)在能夠穩(wěn)定協(xié)調(diào)跨領(lǐng)域的多步驟工作流。

工具調(diào)用訓(xùn)練如今已全面普及：

2025 年推出的大多數(shù)模型，都經(jīng)過了預(yù)訓(xùn)練和強化學(xué)習(xí)優(yōu)化，專門用于智能體任務(wù)執(zhí)行。

長周期編碼任務(wù)是智能代理工作流改進(jìn)的最大受益者。2025 年，無論是初創(chuàng)企業(yè)還是行業(yè)巨頭都紛紛推出編碼代理，這類工具的數(shù)量明顯增多。

3、2025 年，基礎(chǔ)模型迎來了普及化浪潮，不過美國和中國仍保持顯著領(lǐng)先地位。

全球各地的 AI 實驗室（包括歐洲、中東、亞洲）仍在持續(xù)推出具備競爭力的基礎(chǔ)模型。

不過，前沿能力仍集中在美中兩國的頭部公司手中：美國有 OpenAI、Anthropic、Google，中國則是 Moonshot AI、Z.ai、DeepSeek、Minimax。

雖然美國實驗室在專有前沿模型的開發(fā)領(lǐng)域仍處于領(lǐng)先地位，但中國實驗室持續(xù)推出前沿開源權(quán)重模型。

4、2025 年，新的開源權(quán)重模型在智能水平上繼續(xù)與閉源模型并駕齊驅(qū)，但前沿領(lǐng)域仍由閉源模型主導(dǎo)。

2025 年，開源權(quán)重生態(tài)系統(tǒng)持續(xù)擴張；到年底時，最具能力的開源權(quán)重模型已越來越多地出自中國實驗室。

另一方面，2025 年全年，開源權(quán)重模型大體上跟上了專有模型的發(fā)展節(jié)奏，但專有模型在整體智能水平上仍處于領(lǐng)先地位。

5、o1 級智能的成本出現(xiàn)了顯著下降。

2025 年初，o1 級智能的每 token 價格較之前下降了 128 倍。

編者注：最近，Sam Altman 宣布 AI 智能成本下降 1000 倍。

背后的驅(qū)動因素主要有兩個：一是小模型實現(xiàn)了更高的智能水平，二是軟硬件層面的優(yōu)化。

對于「語言模型」，一些關(guān)鍵的洞察：

1、截至 2025 年底，OpenAI、xAI 與 Anthropic 三家公司憑借最新推理模型，在前沿智能領(lǐng)域占據(jù)領(lǐng)先地位，與其他 AI 實驗室拉開了明顯差距。

2、2025 年推出的 AI 模型刷新了智能與成本的平衡邊界：企業(yè)現(xiàn)在要么能用相同預(yù)算獲得更強大的智能，要么能以顯著更低的成本獲取同等水平的智能。

3、模型規(guī)模越大，其全知指數(shù)評測分?jǐn)?shù)（AA-Omniscience）就越穩(wěn)定地處于高位。

編者注：AA-Omniscience 可以理解成「模型知道自己知道，也知道自己不知道什么」的能力得分。

4、但幻覺生成率與模型規(guī)模的關(guān)聯(lián)度并不高，這說明其他訓(xùn)練決策的影響其實更大。

5、2025 年是代碼智能體正式落地的一年；2026 年，則將迎來全能智能體的全面啟用。

6、當(dāng)我們轉(zhuǎn)向智能體工作流時，輸出 token 的數(shù)量多并不意味著智能更高；真正的智能更依賴于對各類工具的有效運用。

7、北京正崛起為前沿 AI 初創(chuàng)企業(yè)的活力中心，而成熟的科技巨頭則地理分布更分散，不存在單一的技術(shù)創(chuàng)新樞紐。

8、韓國政府支持的“國家 AI 計劃”已經(jīng)激活了本土 AI 生態(tài)系統(tǒng)，催生出多家接近前沿水平的 AI 實驗室。

9、OpenAI 推出了自 GPT-2 以來首個開源權(quán)重語言模型，雖推動了開源模型的技術(shù)邊界，但開源與閉源之間的差距仍未縮小。

10、更高效的模型架構(gòu)，加上軟硬件效率的協(xié)同提升，推動模型成本顯著下降：o1 級別智能模型的每 token 定價降低了 128 倍。

03 圖像與視頻

2025 年，圖像與視頻技術(shù)迎來重大升級：

新增了多模態(tài)輸入（圖像轉(zhuǎn)視頻、圖像編輯）以及輸出（帶音頻的視頻）功能。

2025 年的 AI 圖像與視頻領(lǐng)域的趨勢如下：

1、文生圖：畫質(zhì)再上新臺階。

文本生成圖像模型的質(zhì)量已顯著提升，2025 年末的標(biāo)桿模型 GPT Image 1.5，比 2024 年末的第一名 FLUX1.1 [pro] Ultra 高出約 150 個 ELO 評分。

隨著 OpenAI、Google 等頭部實驗室入局，開源權(quán)重圖像模型的進(jìn)展已經(jīng)放緩。截至年底，表現(xiàn)最好的開源權(quán)重模型是 Qwen Image 2512，在文本轉(zhuǎn)圖像排行榜上位列第 12 名。

2、圖像編輯模型正式發(fā)布。

指令驅(qū)動的圖像編輯模型近期開始流行。OpenAI 推出 GPT-4o 圖像功能、谷歌發(fā)布 Nano Banana（即 Gemini 2.5 Flash），這兩款產(chǎn)品的上線大幅提升了這類工具的使用率和用戶心智份額。

圖像編輯中的多圖輸入功能已逐漸普及，像 Nano Banana Pro 和 Qwen Image Edit 這類模型，能讓用戶對輸出圖像實現(xiàn)更精準(zhǔn)的控制。

圖像生成模型正變得越來越通用，既能支持文本生成圖像，也能進(jìn)行圖像編輯。例如 FLUX.2 系列和 Seedream 4.5 就同時具備這兩種模態(tài)的能力。

3、視頻模型已成功躋身主流。

視頻模型的質(zhì)量迎來突破性進(jìn)展。2025 年末的領(lǐng)先產(chǎn)品 Runway Gen-4.5，在 ELO 評分（一種常用的模型性能評級指標(biāo)）上比 2024 年末的行業(yè)標(biāo)桿 OpenAI Sora 高出約 200 分。

聚焦圖像轉(zhuǎn)視頻功能推動了廣泛使用：用戶不僅能更精細(xì)地控制視頻生成，還能在不同鏡頭間保持角色的一致性。

開源權(quán)重視頻模型目前仍落后于閉源同類產(chǎn)品。其中，LTX-2 Pro 作為開源視頻生成領(lǐng)域的 SOTA，在文本轉(zhuǎn)視頻總榜中排名第 29 位，在圖像轉(zhuǎn)視頻總榜中則位列第 28 位。

4、Veo 3 起開始支持帶音頻的視頻功能。

2025 年 5 月推出的 Veo 3，是首個原生支持音頻生成的高質(zhì)量主流視頻模型，而這一特性讓它迅速走紅。

各大視頻實驗室紛紛跟進(jìn)，推出了自家?guī)б纛l的視頻模型，比如 OpenAI 的 Sora 2、Lightricks 的 LTX-2、阿里巴巴的 Wan 2.6 和字節(jié)跳動的 Seedance 1.5 pro。

5、中國在媒體生成模型領(lǐng)域與美國旗鼓相當(dāng)。

中美實驗室在圖像生成模型領(lǐng)域依然旗鼓相當(dāng)：字節(jié)跳動的 Seedream 4.5 能與谷歌的 Nano Banana Pro、OpenAI 的 GPT Image 1.5 一較高下。

中美實驗室在視頻生成模型領(lǐng)域依然勢均力敵：中國的 Kling 2.5 Turbo 與美國的 Veo 3.1、Runway Gen-4.5 不相上下。

編者注：到了 26 年 2 月份，中國的 Seedance2.0 讓世界望塵莫及。

6、與語言模型領(lǐng)域不同，專注于媒體生成的小型 AI 實驗室，仍能與那些擁有更廣泛模態(tài)覆蓋范圍的大型實驗室展開競爭。

04 語音與音樂

語音與音樂模型在第四季度持續(xù)進(jìn)步：

其中語音到語音推理，和開源權(quán)重語音轉(zhuǎn)文字的準(zhǔn)確率提升尤為顯著。

2025 年的 AI 語音與音樂領(lǐng)域的趨勢如下：

1、語音轉(zhuǎn)文字的詞錯誤率持續(xù)降低。

多模態(tài)模型正將轉(zhuǎn)錄作為次要功能進(jìn)行拓展，像 AWS 的 Nova 2 Omni，即便沒有專門優(yōu)化語音轉(zhuǎn)文本，也能達(dá)到有競爭力的準(zhǔn)確率，還能實現(xiàn)語音、視覺與文本的統(tǒng)一處理。

面向語音助手應(yīng)用的超低延遲實時版本已陸續(xù)出現(xiàn)，例如 ElevenLabs 的 Scribe v2 Realtime 和 NVIDIA 的 Parakeet Realtime。

2、文本轉(zhuǎn)語音模型，現(xiàn)在能更精細(xì)地控制韻律和音頻效果。

文本轉(zhuǎn)語音的質(zhì)量已取得顯著提升，新模型持續(xù)迭代推出，不斷突破技術(shù)前沿。

韻律控制在主流 AI 模型中越來越普及，它能通過文本內(nèi)標(biāo)記和語音合成標(biāo)記語言（SSML）標(biāo)記等方式，實現(xiàn)對情感基調(diào)、語速、重音以及副語言元素（如笑聲、嘆氣、呼吸聲）的精準(zhǔn)控制。

語音克隆技術(shù)（包括名人語音合成）正日益普及，這促使人們通過水印技術(shù)和來源驗證系統(tǒng)，更加重視音頻內(nèi)容的真實性。

3、原生音頻推理技術(shù)持續(xù)進(jìn)步，STS 模型也迎來快速成熟。

xAI 在 Big Bench Audio 基準(zhǔn)測試中一舉奪魁：不僅推理速度更快，還把此前的領(lǐng)頭羊 Google Gemini 2.5 Native Audio Thinking 拉下了王座；與此同時，Nova 2.0 Sonic 憑借高性價比脫穎而出，成為新的性價比之王。

目前，語音處理流水線仍是語音智能代理的主流架構(gòu)。但原生音頻推理能力的提升，正驗證著端到端音頻處理的價值：它能省去大語言模型的中間層，讓模型直接利用聲學(xué)信息進(jìn)行推理，既增強了上下文理解能力，又降低了延遲。

4、語音 Agent。

在結(jié)構(gòu)化交互場景下的表現(xiàn)已接近人類水平，但在模糊場景、復(fù)雜多輪推理以及音質(zhì)受損的環(huán)境中仍存在明顯不足，這些方面有待持續(xù)改進(jìn)。

5、音樂模型。

2025 年雖有不少重磅模型發(fā)布，但第四季度的頭部產(chǎn)品上新相對平靜。不過，Suno V4.5、ElevenLabs Music 及 Producer.ai 的 Fuzz 系列等頭部模型的營銷力度和用戶采用率仍在增長。

6、雖然通用 AI 實驗室（比如 OpenAI、谷歌）的產(chǎn)品覆蓋了所有語音模態(tài)，但純語音 AI 實驗室的專注度更高，尤其是在文本轉(zhuǎn)語音領(lǐng)域。

05 芯片加速器

2025 年，AI 基礎(chǔ)設(shè)施迎來顯著成熟：Blackwell 系統(tǒng)開始批量出貨，推理軟件愈發(fā)完善，行業(yè)內(nèi)的挑戰(zhàn)者也在持續(xù)迭代升級。

2025 年的芯片相關(guān)趨勢如下：

1、Blackwell 系統(tǒng)正式投產(chǎn)，性能較 Hopper 系統(tǒng)有大幅提升。

2025 年，B200 芯片開始大規(guī)模支撐生產(chǎn)級工作負(fù)載，GB200 NVL72 機架級系統(tǒng)也實現(xiàn)全面量產(chǎn)。IBM 的 Granite 4 系列模型是首批公開宣布基于 GB200 NVL72 集群訓(xùn)練的模型之一，而 OpenAI 的 GPT-5.3 Codex 則是首個明確披露使用 GB200 訓(xùn)練的前沿大模型。

英偉達(dá)計劃在 2025 年第三季度發(fā)布 B300 和 GB300 兩款新品，具體發(fā)貨時間將在后續(xù)公布。其中 B300 的配置升級顯著：配備 288GB HBM3e 內(nèi)存（較上一代 B200 提升 50%），F(xiàn)P4 精度運算能力達(dá) 14 PFLOPs（而 B200 僅為 9 PFLOPs）。

軟件支持日趨成熟（尤其是 TensorRT-LLM 框架），Blackwell 系列芯片現(xiàn)在在推理性能的整個帕累托前沿（即性能與效率的最優(yōu)權(quán)衡邊界）上，全面領(lǐng)先 Hopper 芯片及其他 AI 加速器。

2、推理軟件已向三大開源框架集中。

2025 年，推理軟件成熟度大幅提升，最終收斂到三個主流框架：vLLM、SGLang 和 NVIDIA TensorRT-LLM。

3、NVIDIA 依舊牢牢占據(jù)著市場主導(dǎo)地位，但它的挑戰(zhàn)者們已在戰(zhàn)略層面取得了顯著進(jìn)展。

2025 年 12 月，英偉達(dá)以約 200 億美元收購了 Groq 公司。交易采用 IP 授權(quán)加人才收購的模式，核心目標(biāo)是將 Groq 的 LPU 技術(shù)整合到英偉達(dá)的產(chǎn)品線中。

Google 的 TPU v6（Trillium，張量處理單元）已于 2024 年底正式發(fā)布；正是這些 TPU 為 Gemini 2.5 Pro 和 Gemini 3 Pro 的模型訓(xùn)練提供了算力支持。

Anthropic 在 2025 年與谷歌、亞馬遜達(dá)成合作協(xié)議，獲取張量處理單元（TPU）和 Trainium 芯片的使用權(quán)，用于模型訓(xùn)練和推理任務(wù)；與此同時，賽睿思（Cerebras）聯(lián)合英偉達(dá)、超威半導(dǎo)體（AMD）和博通，與 OpenAI 簽署了一份多年期合同，將為其提供快速推理服務(wù)。

4、推理需求持續(xù)增長，工作負(fù)載模式不斷演變。這兩大趨勢正推動分布式和解耦架構(gòu)在 2026 年前加速落地。

過去只有前沿實驗室才能用到的分布式推理優(yōu)化技術(shù)，如今正變得人人可用。這背后離不開 NVIDIA Dynamo 的成熟，以及各類開源項目的推動。

其中的核心技術(shù)包括：預(yù)填充/解碼解耦、跨數(shù)十到數(shù)百個 GPU 的專家并行，以及通過規(guī)模化專家副本實現(xiàn)的新型負(fù)載均衡。

來源 | 特工宇宙（ID：AgentVerse）

作者 | 宇宙編輯部 ; 編輯 | 呼呼大睡

內(nèi)容僅代表作者獨立觀點，不代表早讀課立場

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.