337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

上海AI Lab InternLM團(tuán)隊(duì)WildClawBench 60題,把龍蝦AI打回原形

0
分享至



OpenClaw 生態(tài)放出了一道難題:WildClawBench,專門用來驗(yàn)收「龍蝦」AI 的實(shí)戰(zhàn)功力!

這 60 道題全是「打工人」的真實(shí)活兒:整理發(fā)布會錄像做海報(bào)、分類 arXiv 論文找 Baseline,全是多模態(tài) + 多步驟的硬核挑戰(zhàn)。

測試結(jié)果很扎心,連目前地表最強(qiáng)的 Claude Opus 4.6,在 WildClawBench 上也只拿了 51.6%。

我們真的在衡量 AI Agent 的能力嗎?

縱觀過去一年的各類 Benchmark,大多聚焦于模型是否能準(zhǔn)確完成一次函數(shù)調(diào)用。然而,真實(shí)場景下的任務(wù)并非單點(diǎn)的格式對齊,而是一場長跑。AI 需要跨越多種模態(tài)理解信息,在動態(tài)環(huán)境中判斷工具序列,并實(shí)時(shí)處理預(yù)料之外的錯(cuò)誤。

這種端到端的閉環(huán)交付能力,才是 Agent 的核心價(jià)值。

為了填補(bǔ)這一評測空白,上海人工智能實(shí)驗(yàn)室 InternLM 團(tuán)隊(duì)近日推出了全面且硬核的 WildClawBench。它不再關(guān)注碎片化的正確率,而是通過極高難度的任務(wù)場景,對大模型的 Agency 智能進(jìn)行一場全方位的實(shí)戰(zhàn)校檢。



圖 1:WildClawBench 評測框架圖。基于 Docker 的真實(shí)操作系統(tǒng)環(huán)境,AI 智能體可獨(dú)立操作瀏覽器、終端等工具。

  • GitHub:github.com/InternLM/WildClawBench
  • HuggingFace 數(shù)據(jù)集:huggingface.co/datasets/internlm/WildClawBench
  • 在線排行榜:internlm.github.io/WildClawBench
  • 完整評測軌跡:drive.google.com/file/d/1FX6eidw9fNQgm15w6jOjOUCqWAQ__r0Y/view?usp=drive_link

WildClawBench:在真實(shí)助手環(huán)境里端到端評測

WildClawBench 把 Agent 丟進(jìn)一個(gè)真實(shí)的 OpenClaw 環(huán)境,具備一套完整的工具集:瀏覽器、終端、文件系統(tǒng)、日歷,跟真實(shí)用戶日常使用的環(huán)境一模一樣。

60 道任務(wù)全部手工原創(chuàng)設(shè)計(jì),覆蓋中英雙語,分布在 6 個(gè)類別中。每道任務(wù)運(yùn)行在獨(dú)立的 Docker 容器里,評分用的 ground truth 和打分腳本在 Agent 執(zhí)行結(jié)束后才注入容器,整個(gè)執(zhí)行過程中完全不可見,從根源上杜絕數(shù)據(jù)泄露。

換句話說,每一分都是 Agent 真刀真槍掙來的。

6 大類別,60 道題,到底在考什么?

  • 生產(chǎn)力流程(10 題)

研究者和知識工作者每天都在做、但希望有人代勞的事。比如前面提到的 ArXiv 論文審計(jì):Agent 要爬取某天 cs.CV 方向的全部論文,按 6 個(gè)方向自動分類;對「多模態(tài)」類別的每一篇,逐篇打開 PDF 或 HTML,核對完整的作者名單,數(shù)清正文有幾張圖、幾張表,附錄又有幾張圖、幾張表,記錄附錄的起始章節(jié)標(biāo)題;再根據(jù)用戶是 CapRL 作者這一身份信息,從幾十篇論文中挑出最相關(guān)的推薦,并把以 CapRL 為 baseline 的 benchmark 對比表原樣抽取出來。

這不是「幫我總結(jié)一下摘要」——Agent 必須真的去逐篇讀論文的正文內(nèi)容,一張圖一張表地?cái)?shù)。



圖 2 : 生產(chǎn)力類任務(wù)展示。Agent 要爬取某天 cs.CV 方向的全部論文,按 6 個(gè)方向自動分類,并根據(jù)用戶信息(CapRL 作者)完成個(gè)性化推送。

  • 代碼智能(12 題)

給 Agent 一個(gè)完全沒有文檔的代碼倉庫,讓它自己讀源碼、裝依賴、寫推理腳本跑通。比如從 SAM3 的源碼出發(fā)寫出可運(yùn)行的推理代碼,或者解視覺謎題(拼圖、連線、Link-a-Pix),要求生成像素級精確的解。

  • 社交互動(6 題)

多輪溝通和上下文追蹤。Agent 需要通過多輪郵件來回協(xié)商一個(gè)多人都有空的會議時(shí)間,或者掃一遍聊天記錄把所有待辦事項(xiàng)、deadline、負(fù)責(zé)人整理成結(jié)構(gòu)化清單。

  • 搜索檢索(11 題)

當(dāng)網(wǎng)上搜到的信息和本地?cái)?shù)據(jù)對不上時(shí),Agent 要交叉驗(yàn)證、判斷誰對誰錯(cuò)。比如多個(gè)來源給出矛盾的財(cái)務(wù)數(shù)據(jù),Agent 需要追溯原始出處并給出有依據(jù)的結(jié)論。



圖 3:搜索檢索類任務(wù)展示。Agent 要根據(jù)提供的谷歌學(xué)術(shù)主頁,確定兩位學(xué)者之間的最短關(guān)系鏈條,相鄰的學(xué)者對之間均需要有合作論文。

  • 創(chuàng)意合成(11 題)

這一類最考驗(yàn)「全棧」能力。前面提到的產(chǎn)品發(fā)布會任務(wù)就是其中之一:在斷網(wǎng)條件下看完一段完整的發(fā)布會錄像,識別全部 8 款硬件產(chǎn)品,提取名稱、芯片、配色、起售價(jià)等結(jié)構(gòu)化信息存成 JSON,再從視頻中截取產(chǎn)品畫面,排版成一份 5 頁 A4 的專業(yè)宣傳 PDF。評測不僅檢查數(shù)據(jù)是否精確(價(jià)格必須和 ground truth 完全一致),還讓 VLM 對 PDF 的排版美感、圖文一致性打分 —— 做出來的東西不僅要「對」,還要「好看」。



圖 4:創(chuàng)意合成類任務(wù)展示。Agent 要根據(jù)提供的球賽完整視頻,剪輯一段巴塞羅那 7 號球員費(fèi)蘭?托雷斯上半場的精彩進(jìn)球集錦。

  • 安全對齊(10 題)

最隱蔽也最關(guān)鍵的一類。惡意指令被深埋在一份看起來完全正常的文檔中間,Agent 要能識別出來并拒絕執(zhí)行;API Key 散落在一個(gè)大型項(xiàng)目上百條 Git commit 的歷史里,Agent 要像安全審計(jì)員一樣逐一排查并報(bào)告泄露風(fēng)險(xiǎn),而不是無視它們繼續(xù)干活。

排行榜:最強(qiáng)模型剛過半,國產(chǎn)模型擠進(jìn)前三

截至 2026 年 4 月 1 日,WildClawBench 已評測 14 個(gè)前沿模型,結(jié)果如下:



圖 5:Leaderboard。我們評測了國內(nèi)外共 14 個(gè)前沿模型

幾個(gè)值得注意的發(fā)現(xiàn):

  • 分?jǐn)?shù)天花板很低:排名第一的 Claude Opus 4.6 剛過 51 分,可見雖然日常的任務(wù)但是真實(shí)的環(huán)境還是讓 AI Agent 為難的,這個(gè) benchmark 短期內(nèi)不會被「刷爆」,分?jǐn)?shù)的區(qū)分度很高;
  • 性價(jià)比差異懸殊:Claude Opus 4.6 跑一次的平均花費(fèi)超過 80 美元,GPT-5.4 只要 20 美元但只落后 1.3 個(gè)百分點(diǎn)。在成本敏感的場景下,「最貴的」未必是最優(yōu)選擇;
  • 國產(chǎn)模型集體亮相,智譜 GLM 5 拿下探花:14 個(gè)參評模型中有 9 個(gè)來自中國團(tuán)隊(duì),智譜 AI 的 GLM 5 以 42.6% 拿下總榜第三,是唯一進(jìn)入前三的國產(chǎn)模型,力壓 Google DeepMind 的 Gemini 3.1 Pro,而且花費(fèi)僅 $11.39—— 不到 Claude Opus 4.6 的七分之一。小米 MiMo V2 Pro(40.2%)緊隨其后排名第五,同樣超過了 Gemini。國產(chǎn)模型在 Agent 端到端能力上的追趕速度,比很多人預(yù)想的要快。



圖 6:子類別雷達(dá)圖。我們展示了六個(gè)類別下模型的得分,發(fā)現(xiàn)不同模型有各自不同的擅長領(lǐng)域。

「養(yǎng)龍蝦」排行榜:你的 AI 助手比我的強(qiáng)嗎?

WildClawBench 還有一個(gè)有趣的延伸:個(gè)人 OpenClaw 排行榜。

在 OpenClaw 社區(qū)里,「養(yǎng)龍蝦」已經(jīng)成了一種現(xiàn)象:用戶持續(xù)給自己的 AI 助手教新技能、定制人格、積累長期記憶。一個(gè)自然而然的問題是:誰的龍蝦更厲害?

WildClawBench 允許用戶把自己精心調(diào)教的 OpenClaw 工作區(qū)(包括 SOUL.md、MEMORY.md、自定義技能等)提交到同一套 60 道題上跑分。跑完把結(jié)果發(fā)到指定郵箱,就能上排行榜。

這不僅僅是比個(gè)高低,它能幫助社區(qū)理解,在同一個(gè)底座模型上,哪些 harness,技能組合、人格設(shè)定和記憶策略真的能提升 Agent 的任務(wù)完成率。

開源,可復(fù)現(xiàn),歡迎貢獻(xiàn)

WildClawBench 采用 MIT 開源協(xié)議,全部 60 道任務(wù)的 markdown 定義、評分代碼、Docker 鏡像和數(shù)據(jù)集均已公開。

項(xiàng)目還提供了任務(wù)模板,社區(qū)可以按照統(tǒng)一格式貢獻(xiàn)新任務(wù)。每道任務(wù)自帶自動評分腳本,支持一鍵批量評測。

當(dāng)最強(qiáng) AI Agent 的最高分還不到 60 分,我們離真正可靠的 AI 助手還有多遠(yuǎn)?至少現(xiàn)在有了一把刻度清晰的尺子。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國家煙草專賣局:堅(jiān)決擁護(hù)黨中央決定

國家煙草專賣局:堅(jiān)決擁護(hù)黨中央決定

新京報(bào)
2026-04-13 15:25:08
下架、召回!廣東多款飲用水,細(xì)菌超標(biāo)!情況通報(bào)

下架、召回!廣東多款飲用水,細(xì)菌超標(biāo)!情況通報(bào)

娛樂的硬糖吖
2026-04-14 00:52:32
震驚!大同懸空寺在公路旁砌墻“不讓免費(fèi)看”,當(dāng)?shù)鼐W(wǎng)友發(fā)帖反駁

震驚!大同懸空寺在公路旁砌墻“不讓免費(fèi)看”,當(dāng)?shù)鼐W(wǎng)友發(fā)帖反駁

火山詩話
2026-04-14 06:27:39
家長擔(dān)心女兒太美,發(fā)明“防早戀”發(fā)型,網(wǎng)友:顏值已經(jīng)很安全了

家長擔(dān)心女兒太美,發(fā)明“防早戀”發(fā)型,網(wǎng)友:顏值已經(jīng)很安全了

蝴蝶花雨話教育
2026-04-10 13:25:02
64歲陳庭威:沒老婆沒孩子,定居廣東住豪宅,不服老打球很精彩

64歲陳庭威:沒老婆沒孩子,定居廣東住豪宅,不服老打球很精彩

白面書誏
2026-04-13 19:08:56
水花兄弟要重聚?獨(dú)行俠專家證實(shí):克萊買斷回歸勇士,方案已清晰

水花兄弟要重聚?獨(dú)行俠專家證實(shí):克萊買斷回歸勇士,方案已清晰

夜白侃球
2026-04-14 10:41:51
裘德·洛花1個(gè)月變成普京,新片預(yù)告片里連眼神都換了

裘德·洛花1個(gè)月變成普京,新片預(yù)告片里連眼神都換了

影視情報(bào)室
2026-04-14 08:05:09
震驚!一女孩求職不順焦慮,父親轉(zhuǎn)來4.8萬,按月4000元當(dāng)作工資

震驚!一女孩求職不順焦慮,父親轉(zhuǎn)來4.8萬,按月4000元當(dāng)作工資

火山詩話
2026-04-14 07:33:54
東契奇本周六將歸隊(duì)!多次注射治療加快康復(fù) 里夫斯預(yù)計(jì)5月初復(fù)出

東契奇本周六將歸隊(duì)!多次注射治療加快康復(fù) 里夫斯預(yù)計(jì)5月初復(fù)出

羅說NBA
2026-04-14 05:25:06
DeepSeek:什么樣的人,大概率是一事無成?

DeepSeek:什么樣的人,大概率是一事無成?

洞見
2026-04-13 09:15:31
安平逝世,享年65歲

安平逝世,享年65歲

南方都市報(bào)
2026-04-13 19:26:27
中國明確表態(tài):中方船只將繼續(xù)通過霍爾木茲,不接受任何攔截

中國明確表態(tài):中方船只將繼續(xù)通過霍爾木茲,不接受任何攔截

桂系007
2026-04-14 03:28:19
被班主任告知兒子遭毆打,父親到校調(diào)解6分鐘后心源性猝死,當(dāng)?shù)亟逃忠殉闪0嗵幚恚矙C(jī)關(guān)已介入

被班主任告知兒子遭毆打,父親到校調(diào)解6分鐘后心源性猝死,當(dāng)?shù)亟逃忠殉闪0嗵幚恚矙C(jī)關(guān)已介入

封面新聞
2026-04-14 09:39:23
快手搜索人員調(diào)整:王毅離職,程稷李宣平接任

快手搜索人員調(diào)整:王毅離職,程稷李宣平接任

申媽的朋友圈
2026-04-13 11:09:18
13000名中國人在國內(nèi)看病騙取日本保險(xiǎn)金!腸胃炎也要住院,只為狂薅日本人羊毛!

13000名中國人在國內(nèi)看病騙取日本保險(xiǎn)金!腸胃炎也要住院,只為狂薅日本人羊毛!

東京新青年
2026-04-13 18:22:28
比亞迪回應(yīng)坪山園區(qū)一立體車庫火情:為試驗(yàn)及報(bào)廢車輛專用停放區(qū) 火勢已撲滅 無人員傷亡

比亞迪回應(yīng)坪山園區(qū)一立體車庫火情:為試驗(yàn)及報(bào)廢車輛專用停放區(qū) 火勢已撲滅 無人員傷亡

財(cái)聯(lián)社
2026-04-14 09:32:13
請陳芋汐正面回應(yīng):在知情的情況下,為何不退出282群?

請陳芋汐正面回應(yīng):在知情的情況下,為何不退出282群?

開成運(yùn)動會
2026-04-13 20:23:15
特朗普:伊朗致電美方說希望達(dá)成協(xié)議

特朗普:伊朗致電美方說希望達(dá)成協(xié)議

財(cái)聯(lián)社
2026-04-14 01:08:23
總臺海峽時(shí)評丨十項(xiàng)促進(jìn)兩岸交流合作新政將給臺胞帶來實(shí)實(shí)在在的和平利好

總臺海峽時(shí)評丨十項(xiàng)促進(jìn)兩岸交流合作新政將給臺胞帶來實(shí)實(shí)在在的和平利好

國際在線
2026-04-14 07:01:46
深度 | 從“粉絲”變對手:毛焦?fàn)柸绾谓K結(jié)歐爾班時(shí)代重塑匈牙利?

深度 | 從“粉絲”變對手:毛焦?fàn)柸绾谓K結(jié)歐爾班時(shí)代重塑匈牙利?

上觀新聞
2026-04-13 20:53:11
2026-04-14 10:55:01
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12755文章數(shù) 142627關(guān)注度
往期回顧 全部

科技要聞

離職同事"煉化"成AI?這屆公司不需要活人了

頭條要聞

女子做完醫(yī)美吃不下睡不著 女技師吐槽"本來就不好看"

頭條要聞

女子做完醫(yī)美吃不下睡不著 女技師吐槽"本來就不好看"

體育要聞

他做對了所有事,卻被整個(gè)職業(yè)網(wǎng)壇放逐了八年

娛樂要聞

宋祖兒劉宇寧戀情大反轉(zhuǎn) 正主火速辟謠

財(cái)經(jīng)要聞

伊朗要求五個(gè)中東國家賠償戰(zhàn)爭損失

汽車要聞

長城歐拉5限定版純電版上市 限量99臺售價(jià)13.38萬元

態(tài)度原創(chuàng)

健康
教育
房產(chǎn)
旅游
數(shù)碼

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

做有思考、有思路、有思想的校長

房產(chǎn)要聞

6000億投資盛宴,全球巨頭齊聚,海南又要干件大事!

旅游要聞

春和景明賞花經(jīng)濟(jì)持續(xù)火熱 “觀景+文化+體驗(yàn)”多元場景激發(fā)文旅消費(fèi)新活力

數(shù)碼要聞

華為新款鴻蒙電腦來了!MateBook 14鴻蒙版4月20日見:云晰柔光屏+藝術(shù)圓鍵盤

無障礙瀏覽 進(jìn)入關(guān)懷版