百度千帆深度研究Agent登頂權威評測榜單DeepResearch Bench

2026-02-04 17:10:29　來源: 產(chǎn)業(yè)家

北京舉報

分享至

2月4日消息，深度研究智能體權威評測榜單DeepResearchBench公布最新結果，百度千帆深度研究Agent（Qianfan-DeepResearchPro）憑借卓越的端到端研究能力和極高的報告產(chǎn)出質量，登上測評榜單榜首。在衡量研究報告含金量的四大核心維度——全面性、洞察力、指令遵循度和可讀性上，千帆深度研究Agent均實現(xiàn)了行業(yè)領先。

當前，深度研究（DeepResearch）正成為人工智能進化的關鍵分水嶺。不同于傳統(tǒng)文本生成，深度研究任務要求系統(tǒng)能夠像人類專家一樣，自主執(zhí)行多步驟、可迭代的認知任務，涵蓋了從復雜需求理解、廣泛信息獲取到深度洞察產(chǎn)出的全過程。深度研究Agent目前已廣泛應用于學術綜述、金融投研、商業(yè)分析等領域，能夠將傳統(tǒng)需數(shù)日的手動研究工作壓縮至分鐘級完成，顯著提升研究與決策效率。

作為評價這一前沿賽道能力的“金標準”，DeepResearchBench填補了通用AI評測在端到端深度研究任務上的空白。現(xiàn)有的Benchmark多聚焦于單一能力，難以覆蓋長程推理與檢索合成的復雜性。該榜單由領域專家設計了100個博士級別的研究任務，覆蓋22個學科，并引入RACE報告質量評價框架與引文準確性評估，是目前全球范圍內衡量DeepResearchAgent生產(chǎn)力水平最硬核、最真實的評價體系。

千帆深度研究Agent能夠在此次評測中脫穎而出，得益于優(yōu)異的技術設計，它采用Agentic架構，通過“任務理解-規(guī)劃-執(zhí)行”循環(huán)機制實現(xiàn)端到端研究交付，依托百度搜索與RAG技術保障信息獲取的廣度、可信度與相關性。兩大重要設計確保了任務執(zhí)行的準確性，首先采用“由粗到細”的研究路徑展開方式應對任務不確定性；其次，通過深度執(zhí)行路徑規(guī)劃與實時反思機制，系統(tǒng)能在每個研究節(jié)點動態(tài)評估進展、調整策略，從而有效避免幻覺與路徑偏離，并確保復雜研究任務的高質量完成。

此外，在報告生成階段，千帆深度研究Agent采用獨立的兩階段報告渲染機制：首先產(chǎn)出pivot報告，通過優(yōu)化相關推理能力，來保證邏輯一致性和內容全面性；之后使用不同的渲染工具，基于pivot報告渲染出最終的markdown、html、ppt等多形態(tài)報告，從而實現(xiàn)“一次研究，多形態(tài)報告”的交付。

目前，該深度研究Agent已上線百度千帆平臺，用戶只需輸入復雜調研需求，系統(tǒng)即可在十幾分鐘內生成帶引用的專業(yè)級研究報告，真正實現(xiàn)“分鐘級”的深度洞察交付。

此次登榜是百度千帆AgentInfra強大支撐能力的集中體現(xiàn)。千帆AgentInfra提供模型、工具、Agent開發(fā)、數(shù)據(jù)及Agent運行環(huán)境等一站式開發(fā)服務。平臺已累計開發(fā)超130萬個Agents，以百度獨家能力“百度AI搜索”為代表的工具日均調用量已突破數(shù)千萬次。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.