2月4日消息,深度研究智能體權威評測榜單DeepResearchBench公布最新結果,百度千帆深度研究Agent(Qianfan-DeepResearchPro)憑借卓越的端到端研究能力和極高的報告產(chǎn)出質量,登上測評榜單榜首。在衡量研究報告含金量的四大核心維度——全面性、洞察力、指令遵循度和可讀性上,千帆深度研究Agent均實現(xiàn)了行業(yè)領先。
![]()
當前,深度研究(DeepResearch)正成為人工智能進化的關鍵分水嶺。不同于傳統(tǒng)文本生成,深度研究任務要求系統(tǒng)能夠像人類專家一樣,自主執(zhí)行多步驟、可迭代的認知任務,涵蓋了從復雜需求理解、廣泛信息獲取到深度洞察產(chǎn)出的全過程。深度研究Agent目前已廣泛應用于學術綜述、金融投研、商業(yè)分析等領域,能夠將傳統(tǒng)需數(shù)日的手動研究工作壓縮至分鐘級完成,顯著提升研究與決策效率。
作為評價這一前沿賽道能力的“金標準”,DeepResearchBench填補了通用AI評測在端到端深度研究任務上的空白。現(xiàn)有的Benchmark多聚焦于單一能力,難以覆蓋長程推理與檢索合成的復雜性。該榜單由領域專家設計了100個博士級別的研究任務,覆蓋22個學科,并引入RACE報告質量評價框架與引文準確性評估,是目前全球范圍內衡量DeepResearchAgent生產(chǎn)力水平最硬核、最真實的評價體系。
千帆深度研究Agent能夠在此次評測中脫穎而出,得益于優(yōu)異的技術設計,它采用Agentic架構,通過“任務理解-規(guī)劃-執(zhí)行”循環(huán)機制實現(xiàn)端到端研究交付,依托百度搜索與RAG技術保障信息獲取的廣度、可信度與相關性。兩大重要設計確保了任務執(zhí)行的準確性,首先采用“由粗到細”的研究路徑展開方式應對任務不確定性;其次,通過深度執(zhí)行路徑規(guī)劃與實時反思機制,系統(tǒng)能在每個研究節(jié)點動態(tài)評估進展、調整策略,從而有效避免幻覺與路徑偏離,并確保復雜研究任務的高質量完成。
此外,在報告生成階段,千帆深度研究Agent采用獨立的兩階段報告渲染機制:首先產(chǎn)出pivot報告,通過優(yōu)化相關推理能力,來保證邏輯一致性和內容全面性;之后使用不同的渲染工具,基于pivot報告渲染出最終的markdown、html、ppt等多形態(tài)報告,從而實現(xiàn)“一次研究,多形態(tài)報告”的交付。
目前,該深度研究Agent已上線百度千帆平臺,用戶只需輸入復雜調研需求,系統(tǒng)即可在十幾分鐘內生成帶引用的專業(yè)級研究報告,真正實現(xiàn)“分鐘級”的深度洞察交付。
此次登榜是百度千帆AgentInfra強大支撐能力的集中體現(xiàn)。千帆AgentInfra提供模型、工具、Agent開發(fā)、數(shù)據(jù)及Agent運行環(huán)境等一站式開發(fā)服務。平臺已累計開發(fā)超130萬個Agents,以百度獨家能力“百度AI搜索”為代表的工具日均調用量已突破數(shù)千萬次。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.