![]()
![]()
2025年作為Agent發(fā)展元年,Manus敲響了AI 應用大發(fā)展的號角,各種Agent應用層出不窮。這些智能體基本框架是怎樣的,哪些更有前景?
最近在海外看到一張「2025 年 AI Agent 技術趨勢全景圖」,覺得非常精彩,分享出來和大家交流。
這張圖是 《Agentic AI:利用 AI 代理重塑商業(yè)與工作》作者拉凱什·戈赫爾所做,看趨勢圖之前,可以先看這張涵蓋LLM Workflow、RAG、AI Agent、Agentic AI等常見概念名詞的解讀。
![]()
![]()
再來重點看這張趨勢圖,把未來一年最有可能落地的 Agent 形態(tài)、核心協(xié)議棧、工程框架與典型場景全部壓縮在一張圖里,非常清晰明了幫助大家完整理解Agent。
![]()
1
中心主題
中間的圓環(huán)標明了 2025 AI Agent Trends 的六大類趨勢:
Agentic RAG(推理型檢索增強生成)
Voice Agents(語音智能體)
CUA(Computer Using Agents,能像人類一樣操作電腦的智能體)
Coding Agents(代碼智能體)
Deep Research Agents(深度研究型智能體)
Agent Protocols(智能體協(xié)議)
六大Agent趨勢的外圈是代表產品,圓圈四周是每個Agent的流程圖。我們來具體解讀下,這里在每個Agent領域,鯨哥增加了國內這個類型的代表產品。
6大 Agent 模式
1
Agentic RAG
定義:一種結合檢索與推理的 AI 智能體工作流,用于實時數(shù)據(jù)檢索和生成。
流程:
Memory(記憶):保存上下文信息
Planning(規(guī)劃):確定任務步驟
System Prompt(系統(tǒng)提示):定義任務邏輯
Agent(智能體):執(zhí)行任務
Tools(工具) + Vector Search(向量搜索) + Knowledge DB(知識庫):從外部數(shù)據(jù)庫檢索信息
Generate(生成):輸出結果
國外代表:
PerplexityAI:主打即時信息檢索+引用來源,類似搜索引擎+AI顧問
Harvey:面向法律行業(yè)的專業(yè)推理與檢索
Glean:企業(yè)內部知識檢索與智能問答
國內代表:
秘塔AI搜索:聚焦本地化搜索+實時問答
百度文心一言 + 搜索增強:結合百度搜索做事實檢索
360納米搜索:整合360搜索的即時信息流
2
Voice Agents
定義:通過自然語言與用戶交互的智能體,支持語音輸入與輸出。
STT(Speech-to-Text) 將語音轉文字
Embedding Model + Retrieval API + Vector DB 處理信息
Agent 進行任務執(zhí)行
TTS(Text-to-Speech) 將結果轉為語音
可接入 Gmail、Telephony 等渠道
場景:智能客服、語音助理、電話機器人
國外代表:
OpenAI GPT-4o Voice:多模態(tài)對話,低延遲語音交互
Alexa LLM(亞馬遜):智能家居+語音助手
Apple Siri(升級版):與Apple Intelligence結合的智能助手
Meta’s Voicebox(研發(fā)中):多語言語音生成
國內代表:
豆包:強實時語音識別與合成
小愛同學(小米):深度嵌入IoT生態(tài)
天貓精靈(阿里):智能家居+購物語音控制
華為小藝:跨設備語音助手
3
CUA(Computer Using Agents)
定義:能夠像人類一樣操作電腦的軟件和界面。
使用 語言模型 解析用戶指令
獲取 桌面環(huán)境數(shù)據(jù)(Desktop Sandbox)
結合 Vector DB、Memory、第三方工具(如 Stripe、DoorDash) 執(zhí)行任務
場景:自動化辦公、桌面軟件操作、RPA(機器人流程自動化)
國外代表:
Devin(Cognition AI):能直接在電腦環(huán)境中開發(fā)、調試、部署代碼
MultiOn:能代替用戶操作網頁、表格、日歷等
Adept ACT-1(研發(fā)暫停):早期探索自動化辦公
國內代表:
扣子空間(字節(jié)跳動):低代碼構建多場景桌面操作
MuleRUN:具備系統(tǒng)級操作的能力
Fellou:網頁與桌面操作的自動化執(zhí)行
4
Coding Agents
定義:能 10 倍速構建和調試應用的 AI 智能體。
用戶提出 Query
Agent 選擇合適工具執(zhí)行(代碼生成、調試、測試)
輸出成品代碼或測試結果
工具鏈:
Code Generator:生成代碼
Code Debugger:調試代碼
Test Runner:自動化測試
場景:軟件開發(fā)、自動化調試、代碼審查
國外代表:
GitHub Copilot Workspace:支持從需求到部署的全鏈路編碼
Cursor:IDE級AI編程助手
Replit Agents:可多步生成、運行、調試代碼
國內代表:
通義靈碼(阿里):嵌入IDE的代碼生成與調試
百度Comate:結合文心大模型的智能編程工具
字節(jié)Trae:全流程的AI IDE產品
5
Deep Research Agents
定義:多智能體協(xié)作,構建深度研究型報告。
用戶需求 → Aggregator(聚合器)
分發(fā)給多個 Sub-Agent(子智能體)
各自檢索、引用(Citation Agent)、分析
聚合輸出報告
場景:市場調研、學術研究、情報分析
國外代表:
OpenAI Deep Research(2025新功能):多Agent長期調研
Perplexity Pro Search:支持多步調研與引用
LangChain + Agents:自定義研究工作流
Vulcan Research AI:行業(yè)情報自動生成
國內代表:
夸克深度搜索:支持多輪長程研究
阿里通義助理 Deep Search:針對行業(yè)報告和市場分析
百度文心智研:自動生成調研大綱與全文
6
AI Agent Protocols
定義:統(tǒng)一的多智能體通信協(xié)議,簡化跨平臺協(xié)作。
關鍵技術:
MCP、ACP、A2A(Agent-to-Agent) 協(xié)議
Google ADK、LangGraph、Cisco SLIM
Agent 發(fā)現(xiàn)與連接
任務流轉與結果回傳
支持流式與非流式數(shù)據(jù)處理
意義:打通不同智能體和工具間的交互,形成互通生態(tài)
國外代表:
Google AI Device Kit(ADK):多Agent跨設備調用
LangGraph:可視化多智能體協(xié)作編排
Cisco SLIM:企業(yè)級Agent通信標準
OpenAI MCP(Model Context Protocol):跨模型的上下文共享
國內代表:
字節(jié)跳動Coze協(xié)議層:支持不同Bot的消息與任務協(xié)作
阿里云AgentFlow:跨Agent編排與協(xié)議轉換
騰訊云智鏈協(xié)議:支持企業(yè)多Agent互通
華為MetaAgent標準:IoT與大模型互通協(xié)議
戈赫爾還制作了Agent L1-L5的發(fā)展標準:
![]()
Level 5 – 完全自治智能體
具備自我改進能力,完全自主
持續(xù)學習與推理
無需人工干預
以目標為驅動,具備多模態(tài)感知
能感知復雜環(huán)境
能基于過往經驗進行規(guī)劃
能基于反饋進行推理和學習
具備自然語言理解
工具編排
基礎AI系統(tǒng),自治性有限
簡單機器學習用于模式識別
提供部分決策支持
剛性、基于規(guī)則的系統(tǒng),無學習能力
簡單的 if-then 邏輯
手動使用工具完成操作
無適應性和智能
并認為得益于 GPT-5、Claude 4.1、Grok 4 和其他內置Agent的基礎模型突破,當下Agent正朝著以下模式發(fā)展:
多智能體協(xié)作化:從單一 AI 升級到多智能體分工協(xié)作。
多模態(tài)輸入輸出:語音、文本、代碼、桌面操作都可以接入。
工具鏈深度集成:每類智能體都配合檢索、數(shù)據(jù)庫、測試和第三方 API。
跨協(xié)議互通:通過標準化協(xié)議讓不同廠商、不同類型智能體無縫交流。
高自動化程度:很多智能體可直接替代人工執(zhí)行復雜任務。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.