337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

上海AI Lab InternLM團隊WildClawBench 60題,把龍蝦AI打回原形

0
分享至



OpenClaw 生態放出了一道難題:WildClawBench,專門用來驗收「龍蝦」AI 的實戰功力!

這 60 道題全是「打工人」的真實活兒:整理發布會錄像做海報、分類 arXiv 論文找 Baseline,全是多模態 + 多步驟的硬核挑戰。

測試結果很扎心,連目前地表最強的 Claude Opus 4.6,在 WildClawBench 上也只拿了 51.6%。

我們真的在衡量 AI Agent 的能力嗎?

縱觀過去一年的各類 Benchmark,大多聚焦于模型是否能準確完成一次函數調用。然而,真實場景下的任務并非單點的格式對齊,而是一場長跑。AI 需要跨越多種模態理解信息,在動態環境中判斷工具序列,并實時處理預料之外的錯誤。

這種端到端的閉環交付能力,才是 Agent 的核心價值。

為了填補這一評測空白,上海人工智能實驗室 InternLM 團隊近日推出了全面且硬核的 WildClawBench。它不再關注碎片化的正確率,而是通過極高難度的任務場景,對大模型的 Agency 智能進行一場全方位的實戰校檢。



圖 1:WildClawBench 評測框架圖。基于 Docker 的真實操作系統環境,AI 智能體可獨立操作瀏覽器、終端等工具。

  • GitHub:github.com/InternLM/WildClawBench
  • HuggingFace 數據集:huggingface.co/datasets/internlm/WildClawBench
  • 在線排行榜:internlm.github.io/WildClawBench
  • 完整評測軌跡:drive.google.com/file/d/1FX6eidw9fNQgm15w6jOjOUCqWAQ__r0Y/view?usp=drive_link

WildClawBench:在真實助手環境里端到端評測

WildClawBench 把 Agent 丟進一個真實的 OpenClaw 環境,具備一套完整的工具集:瀏覽器、終端、文件系統、日歷,跟真實用戶日常使用的環境一模一樣。

60 道任務全部手工原創設計,覆蓋中英雙語,分布在 6 個類別中。每道任務運行在獨立的 Docker 容器里,評分用的 ground truth 和打分腳本在 Agent 執行結束后才注入容器,整個執行過程中完全不可見,從根源上杜絕數據泄露。

換句話說,每一分都是 Agent 真刀真槍掙來的。

6 大類別,60 道題,到底在考什么?

  • 生產力流程(10 題)

研究者和知識工作者每天都在做、但希望有人代勞的事。比如前面提到的 ArXiv 論文審計:Agent 要爬取某天 cs.CV 方向的全部論文,按 6 個方向自動分類;對「多模態」類別的每一篇,逐篇打開 PDF 或 HTML,核對完整的作者名單,數清正文有幾張圖、幾張表,附錄又有幾張圖、幾張表,記錄附錄的起始章節標題;再根據用戶是 CapRL 作者這一身份信息,從幾十篇論文中挑出最相關的推薦,并把以 CapRL 為 baseline 的 benchmark 對比表原樣抽取出來。

這不是「幫我總結一下摘要」——Agent 必須真的去逐篇讀論文的正文內容,一張圖一張表地數。



圖 2 : 生產力類任務展示。Agent 要爬取某天 cs.CV 方向的全部論文,按 6 個方向自動分類,并根據用戶信息(CapRL 作者)完成個性化推送。

  • 代碼智能(12 題)

給 Agent 一個完全沒有文檔的代碼倉庫,讓它自己讀源碼、裝依賴、寫推理腳本跑通。比如從 SAM3 的源碼出發寫出可運行的推理代碼,或者解視覺謎題(拼圖、連線、Link-a-Pix),要求生成像素級精確的解。

  • 社交互動(6 題)

多輪溝通和上下文追蹤。Agent 需要通過多輪郵件來回協商一個多人都有空的會議時間,或者掃一遍聊天記錄把所有待辦事項、deadline、負責人整理成結構化清單。

  • 搜索檢索(11 題)

當網上搜到的信息和本地數據對不上時,Agent 要交叉驗證、判斷誰對誰錯。比如多個來源給出矛盾的財務數據,Agent 需要追溯原始出處并給出有依據的結論。



圖 3:搜索檢索類任務展示。Agent 要根據提供的谷歌學術主頁,確定兩位學者之間的最短關系鏈條,相鄰的學者對之間均需要有合作論文。

  • 創意合成(11 題)

這一類最考驗「全棧」能力。前面提到的產品發布會任務就是其中之一:在斷網條件下看完一段完整的發布會錄像,識別全部 8 款硬件產品,提取名稱、芯片、配色、起售價等結構化信息存成 JSON,再從視頻中截取產品畫面,排版成一份 5 頁 A4 的專業宣傳 PDF。評測不僅檢查數據是否精確(價格必須和 ground truth 完全一致),還讓 VLM 對 PDF 的排版美感、圖文一致性打分 —— 做出來的東西不僅要「對」,還要「好看」。



圖 4:創意合成類任務展示。Agent 要根據提供的球賽完整視頻,剪輯一段巴塞羅那 7 號球員費蘭?托雷斯上半場的精彩進球集錦。

  • 安全對齊(10 題)

最隱蔽也最關鍵的一類。惡意指令被深埋在一份看起來完全正常的文檔中間,Agent 要能識別出來并拒絕執行;API Key 散落在一個大型項目上百條 Git commit 的歷史里,Agent 要像安全審計員一樣逐一排查并報告泄露風險,而不是無視它們繼續干活。

排行榜:最強模型剛過半,國產模型擠進前三

截至 2026 年 4 月 1 日,WildClawBench 已評測 14 個前沿模型,結果如下:



圖 5:Leaderboard。我們評測了國內外共 14 個前沿模型

幾個值得注意的發現:

  • 分數天花板很低:排名第一的 Claude Opus 4.6 剛過 51 分,可見雖然日常的任務但是真實的環境還是讓 AI Agent 為難的,這個 benchmark 短期內不會被「刷爆」,分數的區分度很高;
  • 性價比差異懸殊:Claude Opus 4.6 跑一次的平均花費超過 80 美元,GPT-5.4 只要 20 美元但只落后 1.3 個百分點。在成本敏感的場景下,「最貴的」未必是最優選擇;
  • 國產模型集體亮相,智譜 GLM 5 拿下探花:14 個參評模型中有 9 個來自中國團隊,智譜 AI 的 GLM 5 以 42.6% 拿下總榜第三,是唯一進入前三的國產模型,力壓 Google DeepMind 的 Gemini 3.1 Pro,而且花費僅 $11.39—— 不到 Claude Opus 4.6 的七分之一。小米 MiMo V2 Pro(40.2%)緊隨其后排名第五,同樣超過了 Gemini。國產模型在 Agent 端到端能力上的追趕速度,比很多人預想的要快。



圖 6:子類別雷達圖。我們展示了六個類別下模型的得分,發現不同模型有各自不同的擅長領域。

「養龍蝦」排行榜:你的 AI 助手比我的強嗎?

WildClawBench 還有一個有趣的延伸:個人 OpenClaw 排行榜。

在 OpenClaw 社區里,「養龍蝦」已經成了一種現象:用戶持續給自己的 AI 助手教新技能、定制人格、積累長期記憶。一個自然而然的問題是:誰的龍蝦更厲害?

WildClawBench 允許用戶把自己精心調教的 OpenClaw 工作區(包括 SOUL.md、MEMORY.md、自定義技能等)提交到同一套 60 道題上跑分。跑完把結果發到指定郵箱,就能上排行榜。

這不僅僅是比個高低,它能幫助社區理解,在同一個底座模型上,哪些 harness,技能組合、人格設定和記憶策略真的能提升 Agent 的任務完成率。

開源,可復現,歡迎貢獻

WildClawBench 采用 MIT 開源協議,全部 60 道任務的 markdown 定義、評分代碼、Docker 鏡像和數據集均已公開。

項目還提供了任務模板,社區可以按照統一格式貢獻新任務。每道任務自帶自動評分腳本,支持一鍵批量評測。

當最強 AI Agent 的最高分還不到 60 分,我們離真正可靠的 AI 助手還有多遠?至少現在有了一把刻度清晰的尺子。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

阿訊說天下
2026-04-18 14:53:39
美國至少10名科研人員離奇死亡或神秘失蹤引發廣泛關注!大都接觸UFO、航空航天、原子能等涉密項目,白宮承諾:徹查

美國至少10名科研人員離奇死亡或神秘失蹤引發廣泛關注!大都接觸UFO、航空航天、原子能等涉密項目,白宮承諾:徹查

大風新聞
2026-04-20 09:35:11
藍眼北京人控訴陳麗華20余年,比女首富更該銘記

藍眼北京人控訴陳麗華20余年,比女首富更該銘記

老蝣說體育
2026-04-19 17:40:22
兩性關系:女人可以摟著睡,親她的嘴,但千萬別信她說的話

兩性關系:女人可以摟著睡,親她的嘴,但千萬別信她說的話

游戲收藏指南
2026-04-20 14:55:01
CBA最新排名!深圳北京爭第3,廣東無緣前4,廣州北控拼最后一席

CBA最新排名!深圳北京爭第3,廣東無緣前4,廣州北控拼最后一席

籃球資訊達人
2026-04-21 01:50:47
我今年55了,想用血淚教訓告訴你:不要跟任何人,包括你的父母、子女、枕邊人,分享這4件事

我今年55了,想用血淚教訓告訴你:不要跟任何人,包括你的父母、子女、枕邊人,分享這4件事

東林夕亭
2026-03-27 09:07:57
阿聯酋沒美元了

阿聯酋沒美元了

凱利經濟觀察
2026-04-20 12:17:23
“把大女兒養成這樣,還敢說沒偏心?”一張母女三人合照,被群嘲

“把大女兒養成這樣,還敢說沒偏心?”一張母女三人合照,被群嘲

妍妍教育日記
2026-04-20 18:51:58
鄭柵潔主持召開民營企業座談會,圍繞準確把握當前經濟形勢、積極應對外部環境變化聽取意見建議

鄭柵潔主持召開民營企業座談會,圍繞準確把握當前經濟形勢、積極應對外部環境變化聽取意見建議

界面新聞
2026-04-20 17:54:34
以牙還牙!中國052D直接沖入橫當水道,從日本導彈眼皮底下過!

以牙還牙!中國052D直接沖入橫當水道,從日本導彈眼皮底下過!

阿龍聊軍事
2026-04-20 19:13:31
美國在霍爾木茲截停中國油輪 中方回應

美國在霍爾木茲截停中國油輪 中方回應

極目新聞
2026-04-20 15:50:46
離奇!大師賽的冠軍獎金比八年前還低,球員集體上訴求漲獎金

離奇!大師賽的冠軍獎金比八年前還低,球員集體上訴求漲獎金

網球之家
2026-04-20 22:22:28
活久見!趙櫻子回應與楊子戀情,直言不怕黃圣依反擊,想紅想瘋了

活久見!趙櫻子回應與楊子戀情,直言不怕黃圣依反擊,想紅想瘋了

八卦王者
2026-04-20 14:10:53
蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

川渝視覺
2026-04-17 22:13:14
美政府將發布首批UFO文件

美政府將發布首批UFO文件

參考消息
2026-04-20 10:51:15
普京訪華敲定,特朗普已下命令,中國全球通告:無懼美國

普京訪華敲定,特朗普已下命令,中國全球通告:無懼美國

浠浠熱評
2026-04-21 00:20:44
神秘消失數月后突然現身!美國最頭疼的人,悄悄到了巴格達

神秘消失數月后突然現身!美國最頭疼的人,悄悄到了巴格達

菁菁子衿
2026-04-19 19:41:04
王毅通告全世界,53國獲零關稅特權,唯獨一國沒得到,中方選邊站

王毅通告全世界,53國獲零關稅特權,唯獨一國沒得到,中方選邊站

觸摸史跡
2026-04-20 03:39:03
關注丨剛剛,全線跳水!伊朗,突然宣布

關注丨剛剛,全線跳水!伊朗,突然宣布

錢眼
2026-04-20 20:12:47
西貝轉型!賈國龍上海連開三家燜面店:單店超2000平米

西貝轉型!賈國龍上海連開三家燜面店:單店超2000平米

快科技
2026-04-20 19:07:44
2026-04-21 03:28:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12813文章數 142633關注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經要聞

利潤暴跌7成,字節到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

房產
時尚
本地
旅游
手機

房產要聞

大規模商改住!海口西海岸,這波項目要贏麻了!

春天衣服不用準備太多!這幾大單品提前備好,百搭實用又不過時

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

旅游要聞

以“Fun”為名,深圳布吉將發布全域旅游品牌IP

手機要聞

OPPO影像旗艦高端發力 Find X9 Ultra走出國門

無障礙瀏覽 進入關懷版