337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

紅杉xbench 最新報告:104 項日常任務,Agent 可處理 60+%

0
分享至

現在 Agent 產品很多,Claude Code、ChatGPT Agent、Manus、Genspark...還有各種各樣的

對于大家的干活靠譜程度,紅杉中國的 xbench 團隊,整了新評測,叫 AgentIF-OneDay
(倆周,發了倆評測集了,另一個是 ,然后xiaobo 跟我說,他上個月全在整這個)

大概就是:一堆真實的日常任務,帶著 Excel、PPT、PDF 這些附件,能不能幫我搞定

結論:頭部 Agent 大約 62-65%


https://xbench.org/agi/agentif

先說在前面:這個榜單目前啥也不代表,看 insight 就行

能同時跑通所有附件格式的 Agent 其實很少,xbench 測了一圈,只有四家能完整跑完

Claude Code 因為各種原因沒測出來,Cowork 測的時候還沒發布,其他很多 Agent 要么不支持 PPT,要么不支持 Excel,反正就是跑不通

所以這次的價值不在排名,在方向

順便一提,雖然大家都是混合模型,但 Manus 和 Minimax-Agent 的基礎模型更偏 Claude,Genspark 和 ChatGPT-Agent 更偏 GPT

為什么要做這個評測

xbench 之前發過 ScienceQA 和 DeepSearch,都是分鐘級的集中推理任務,模型表現已經從 human-average 逐漸到了 PhD-level

但他們發現一個問題:一旦任務突破一般人一小時可處理的復雜度,Agent 的整體完成度就會出現明顯下降

短程任務表現驚艷,長程任務顯乏力


所以 xbench 提了一個新視角來理解 Agent 能力邊界:任務復雜度

這里的復雜度,指的是完成一個任務所需的人類時間投入

Agent 能力的演進會沿著兩條線展開:

Scaling Context
任務在時間維度上延展,從分鐘級到一天級、甚至一周級。Agent 需要在更長的執行周期中維護上下文狀態,跟蹤中間目標,保持一致性

Scaling Domain
任務類型上的擴展。現實世界的工作往往橫跨多個領域,不同任務在目標表述、隱含約束、工具使用上差異很大

AgentIF-OneDay 就是沿著這兩個方向推進的第一步:以人類一天內可完成的任務復雜度作為基準

這個評測在測什么

AgentIF-OneDay 的核心是指令遵循,它要求 Agent 處理真實的附件:Excel、PPT、PDF、圖片,然后輸出可交付的文件,任務分三類:

場景一:你知道該怎么做,但執行太繁瑣

用戶已知完整流程并明確給出操作步驟,Agent 只需精確執行。這類任務叫工作流執行(Workflow Execution)

例題 我計劃去 NeurIPS 2025,幫我規劃一個好的行程方案。請你先去官網確認 NeurIPS 2025 會議的主會場位置(San Diego Convention Center, San Diego)是否準確,然后用另一個可靠來源交叉驗證這個信息,確保萬無一失 接下來,幫我收集基本信息,比如會議時間、地點和論文提交截止日期 還要確認完整的會議日程是否已經發布,如果還沒發布,請明確告訴我 最后,從紐約出發給我兩套去圣地亞哥的行程方案:一個最便宜的 Cheap Plan,一個最快的 Fast Plan

當 Agent 能夠在整個流程中保持一致性、逐步完成步驟、并在長上下文中保持狀態,就具備幫你把事情做完的潛力

這也是大量用戶希望 Agent 能真正替代重復性勞動的原因

場景二:你不知道規則,只能給個參考

用戶不明確知道完整的工作流或者條件約束,只提供若干案例或參考資料。這類任務叫隱式指令推理(Latent Instruction Inference)

例題 我現在用的是 iPhone 13 Pro Max,AT&T 套餐每月 20 美元預付費。我想換 iPhone 17 Pro Max 基于附件里的購機方案和運營商優惠,幫我找出總成本最低的方式

這是人類最自然的工作方式,人們不會每次都從零寫起

Agent 需要從提供的示例文件中挖掘出潛在的意圖,同時滿足用戶的顯式指令與附件的隱式指令

如果具備這種能力,Agent 就能真正參與內容生產、報告生成、數據整理等職業型任務

場景三:需求本身是動態的,要邊做邊看

人類的工作普遍呈現多輪迭代結構,在工作的開始并不知道完整解法、也沒有參考示例,需要在與 Agent 多輪交互中逐漸提出新需求。這類任務叫迭代式編輯(Iterative Refinement)

例題 拿著這個 SVG 平面圖(venue_layout.svg)和 Excel 約束表(venue_constraints.xlsx),更新會場布局以滿足所有約束條件,同時保持設計的可讀性和可行走性

Agent 必須具備在不斷變化的約束下維持上下文一致性并穩定推進任務的能力

評測細節

總共 104 道任務,覆蓋工作、生活(游戲攻略、旅游規劃)和學習,其中 62 道由文件驅動的合成任務用于補充長尾場景

覆蓋 PDF、PPT、Excel、圖像、代碼文件在內的 15 種以上格式,模擬真實工作流程中跨格式、跨來源的模式

每道任務都帶有一套細粒度的評判標準,總計 767 個評分點,分為正向指標(格式一致性、結構復現、步驟完整)與負向指標(誤刪內容、越界生成、錯誤操作)

評測系統采用 LLM 作為裁判,值得一提的是 Gemini 3-pro 的出現讓 rubrics 打分的準確性提升到可用的程度

Agent 的得分不僅取決于最終是否完成任務,還包括流程是否干凈、是否出現誤操作、是否正確解析附件、是否能在迭代過程中保持一致性

幾個有意思的發現

發現一:不同框架,拉不開差距

Manus、Genspark 與 ChatGPT-Agent 都集中在 0.62-0.65 區間,構成當下能力最強的第一梯隊

不管是模型原生訓練出來的 Agent,還是基于 API 的工具鏈集成,在完成一套真實任務鏈時,用戶側感受到的能力是比較接近的

這印證了一個判斷:基礎 Agent 能力已經商品化了


底層模型能力不變的情況下,不同多智能體框架本身難以拉開數量級上的性能差異。基座模型會逐步集成 agentic 能力,下游基于 API 的 Agent 產品,在能力表現上也會體現出 Agent RL 的能力

發現二:分場景各有所長

工作場景:ChatGPT-Agent 72.18,Genspark 71.86,Manus 70.27

生活場景:Manus 73.40,ChatGPT-Agent 69.67,Genspark 67.85

學習場景:Genspark 71.19,Manus 64.41,ChatGPT-Agent 59.29

三個產品迭代方向不同。ChatGPT-Agent 重點關注 GDPval,聚焦專業工作場景的體驗;Manus 與 Genspark 更側重用戶反饋

xbench 的觀點是:優秀的通用 Agent 應當兼顧最多樣的任務,而不側重一方

發現三:分能力維度看

Genspark 在隱式指令推斷上表現最優,Manus 在開放工作流執行最優,Minimax-Agent 具有最好的迭代式編輯能力

隱式條件推斷是目前 Agent 普遍最薄弱的能力項

比如讓 Agent 從 PPT 模板中抽取頁眉頁腳結構或引用標注方式,再遷移到新內容生成中


即便是整體表現最好的系統,在這類任務中也很難做到完全正確。要么格式復現正確但覆蓋不足,要么內容理解到位但無法保持結構一致

綜合來看,穩定性、文件處理鏈路、隱式結構理解能力,乃至跨工具的狀態管理,都是決定 Agent 能否真正承擔一天工作量的關鍵環節

展望:從 OneDay 到 OneWeek

xbench 已經開始著手構建 OneWeek 評測集

他們的判斷是:當一個 Agent 能夠在一周尺度的工作量上保持穩定高質量的產出,它就具備了承擔真實崗位的能力

這個過程有點像自動駕駛,從有限路段走向通用路段,從頻繁人工干預走向長時無干預


有效的數據積累可以帶來高可靠 Agent 系統的出現,優先轉起數據飛輪的公司將率先實現通用 Agent 的 FSD 時刻

xbench 的節奏

xbench 是紅杉中國 2025 年 5 月發的 AI 評測基準,設計思路是 Evergreen Evaluation,持續維護、動態更新

這兩周,他們連發兩篇:上周是 ,測多模態的純視覺能力,這周 AgentIF-OneDay 測 Agent 的日常任務能力

BabyVision 的結論是模型的視覺能力普遍低于 3 歲兒童

AgentIF-OneDay 的結論是最強 Agent 在日常任務上大約 65%

所以嘛,模型的「看」和「做」,都還有很大空間

開源地址

Paper Link
https://github.com/xbench-ai/AgentIF-OneDay/blob/main/paper/AgentIF_OneDay_0117.pdf

Website
https://xbench.org/

GitHub
https://github.com/xbench-ai/AgentIF-OneDay

HuggingFace
https://huggingface.co/datasets/xbench/AgentIF-OneDay

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
等了13年,潘粵明終于可以接兒子回家過周末,董潔這次放手了

等了13年,潘粵明終于可以接兒子回家過周末,董潔這次放手了

未曾青梅
2026-03-21 23:05:47
懸念不大!西部季后賽潛在對陣,大概率是這4組,全都是恩怨對決

懸念不大!西部季后賽潛在對陣,大概率是這4組,全都是恩怨對決

老梁體育漫談
2026-03-25 00:03:38
57歲女主持定居上海6年!離婚后與歌手前男友復合,4個孩子已離巢

57歲女主持定居上海6年!離婚后與歌手前男友復合,4個孩子已離巢

藝能八卦局
2026-03-24 03:22:04
女籃顏值擔當,30歲仍單身,從來不是“沒人要”,而是“不將就”

女籃顏值擔當,30歲仍單身,從來不是“沒人要”,而是“不將就”

萌蘭聊個球
2026-03-24 14:31:13
史詩級反轉!以色列空襲釀大禍,阿拉伯世界突然聯手封死退路

史詩級反轉!以色列空襲釀大禍,阿拉伯世界突然聯手封死退路

安安說
2026-03-24 11:43:09
楊冪這胯這不對勁

楊冪這胯這不對勁

可樂談情感
2026-03-24 17:01:08
央視曝光的“麻醉魚”,都去哪兒?

央視曝光的“麻醉魚”,都去哪兒?

鈞言堂
2026-03-23 23:02:41
美國國防部長:所有國家應該排好順序,專門給美國總統說一句謝謝

美國國防部長:所有國家應該排好順序,專門給美國總統說一句謝謝

達文西看世界
2026-03-24 08:13:44
《逐玉》資源泄露疑云:6000萬打水漂,塌天大禍誰背鍋?

《逐玉》資源泄露疑云:6000萬打水漂,塌天大禍誰背鍋?

仙女事件簿
2026-03-23 23:37:43
華為一口氣發了22個新品,被一款千元機搶了風頭。。。

華為一口氣發了22個新品,被一款千元機搶了風頭。。。

差評XPIN
2026-03-24 00:08:17
《逐玉》大結局,看見母親絕筆信,謝征才知魏嚴不敢碰糖盒的原因

《逐玉》大結局,看見母親絕筆信,謝征才知魏嚴不敢碰糖盒的原因

楓塵余往逝
2026-03-24 11:54:08
高校黨委書記,任上被查!

高校黨委書記,任上被查!

雙一流高校
2026-03-24 00:06:42
殺死中國大使?日本軍官再次獨走,中方撂下一句狠話,手段不簡單

殺死中國大使?日本軍官再次獨走,中方撂下一句狠話,手段不簡單

共工之錨
2026-03-25 00:55:06
生死關頭,這個器官會用自己的離開,守護你最后一次

生死關頭,這個器官會用自己的離開,守護你最后一次

果殼
2026-03-24 16:19:32
港媒爆45歲TVB花旦甩徐少強大兒子!夜店密會富商玩到盡興

港媒爆45歲TVB花旦甩徐少強大兒子!夜店密會富商玩到盡興

TVB資訊臺
2026-03-24 22:18:47
廣東省最出名的十名醫生

廣東省最出名的十名醫生

健身狂人
2026-03-24 09:42:26
3.7萬到12萬+!高校思政課教師規模大增長

3.7萬到12萬+!高校思政課教師規模大增長

麥可思研究
2026-03-24 10:04:37
徹底崩了!俄烏前線俄軍慘案:俄士兵射殺戰友后當場爆頭自盡

徹底崩了!俄烏前線俄軍慘案:俄士兵射殺戰友后當場爆頭自盡

老馬拉車莫少裝
2026-03-23 20:34:40
錢再多有啥用?網紅名師張雪峰確認猝死,年僅41歲最后露面很憔悴

錢再多有啥用?網紅名師張雪峰確認猝死,年僅41歲最后露面很憔悴

壹月情感
2026-03-24 22:23:35
賈國龍59元燜面大翻車,換個馬甲繼續割韭菜,網友:羅永浩白罵了

賈國龍59元燜面大翻車,換個馬甲繼續割韭菜,網友:羅永浩白罵了

壹月情感
2026-03-23 17:04:48
2026-03-25 01:55:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
341文章數 50關注度
往期回顧 全部

科技要聞

年僅41歲,教育名師張雪峰猝然離世

頭條要聞

張雪峰因心源性猝死搶救無效去世 終年41歲

頭條要聞

張雪峰因心源性猝死搶救無效去世 終年41歲

體育要聞

NBA最強左手射手,是個右撇子

娛樂要聞

張雪峰經搶救無效不幸去世 年僅41歲

財經要聞

特朗普再TACO 可以押注伊朗局勢降級?

汽車要聞

尚界Z7雙車預售22.98萬起 問界M6預售26.98萬起

態度原創

數碼
家居
時尚
本地
軍事航空

數碼要聞

榮耀平板PC應用新增剪映專業版App,支持大屏多軌剪輯等功能

家居要聞

智慧生活 奢享家居

豪門夢破碎后,她居然還能爆紅?

本地新聞

春日吃花第一站——云南

軍事要聞

以色列媒體:美國計劃于4月9日結束對伊朗戰爭

無障礙瀏覽 進入關懷版