337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Anthropic:大模型 benchmark 打分不適用 AI agent 評測

0
分享至

最近,Anthropic 發了一篇不太像“技術博客”的文章,《Demystifying evals for AI agents(揭開 AI agents 評測的迷霧)》,基本可視為一份“Agent 時代的產品生存指南”。


這篇文章背后隱含的一個判斷是,如果你做的是 AI Agent,卻還在用“模型 benchmark”那一套方式來評估它,那基本就是在扯淡。

Agent 的問題,不是模型準不準,而是它會不會在真實世界里,把事情搞砸。

Anthropic 在文中反復強調一個現實:隨著 AI 從“一次性回答問題”,走向“長時間自主行動”,系統的失敗方式已經發生了根本變化。

錯誤不再是“答錯一道題”,而是一步小錯、持續放大,最終造成不可逆后果。

比如一個研究型 Agent,早期一次資料篩選偏差,后面所有推理都會建立在錯誤前提上;

又比如一個自動化 Agent,在工具調用上出現微小誤判,卻在長鏈條任務中不斷復制這種錯誤。

這些問題,用傳統的評測方式幾乎是測不出來的。

Anthropic 直接點破了一個行業誤區:我們過去評估 AI,更像是在給“考試機器”打分;但 Agent 更像一個“實習生”,你真正關心的是——它在真實任務里能不能被信任。

所以,Anthropic提出,其核心不是“怎么跑 評測”,而是評測到底應該服務什么目標。

他們給出的第一個關鍵轉向是,從靜態結果評測,轉向過程與行為評測。

在 Agent 系統中,最終結果是否正確固然重要,但遠遠不夠。更關鍵的是:


  • 它是否遵循了預期的決策路徑

  • 是否在不確定時主動求證

  • 是否在失敗后調整策略

  • 是否在高風險節點表現得足夠保守

換句話說,評測不只是“對不對”,而是“像不像一個你敢用的 Agent”。


第二個非常現實的判斷是:Agent 的 評測永遠不可能一次性完成。

Anthropic 明確指出,Agent 的評估是一個“持續對抗”的過程。

你修復了一個失敗模式,很可能立刻引入一個新的失敗方式。

這點對所有做產品的人都很殘酷,也很真實:Agent 并不存在“評測通過 → 可以放心上線”的時刻,只有“暫時可控”。

因此,Anthropic建議,把評測變成和訓練、部署同等重要的基礎設施,而不是發布前的一個檢查項。

第三個被反復強調的觀點是:不要迷信自動化評測。

在 Agent 場景下,純自動評測往往會遺漏最危險的問題。

很多真正致命的錯誤,只能通過人工設計的 adversarial 測試、失敗案例復盤、極端場景模擬才能發現。

Anthropic 的態度非常清醒:評測不是為了證明系統“很強”,而是為了盡可能早地發現“它會怎么翻車”。

這和當前行業大量“Agent Demo 導向”的做法,形成了非常鮮明的對比。

Anthropic幾乎是為整個 AI 應用層敲了警鐘:當 AI 開始替人“做事”,而不是“回答問題”,評估體系本身就變成了安全邊界的一部分。

這也是為什么 Anthropic 會把評測提到如此高的戰略位置——不是工程細節,而是產品能不能活下去的問題。

對創業者來說,可以反思的是,未來 AI Agent 的競爭,不只是在模型、算力或功能完整度上,而是在誰更早建立起一套可靠的“可控性與信任機制”。

而評測,正是這套機制的第一道防線。

原文鏈接(Anthropic 官方):

https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
12噸巧克力離奇被盜,41萬根巧克力與貨車至今下落不明,失竊巧克力系F1特別款,外形為賽車形狀

12噸巧克力離奇被盜,41萬根巧克力與貨車至今下落不明,失竊巧克力系F1特別款,外形為賽車形狀

極目新聞
2026-03-30 10:23:56
真的來了!5099 的 iPhone Air 正式上架

真的來了!5099 的 iPhone Air 正式上架

XCiOS俱樂部
2026-03-30 08:58:50
副部級高官任上落馬,任職地多名前下屬被查

副部級高官任上落馬,任職地多名前下屬被查

中國新聞周刊
2026-03-29 09:44:48
三大指數均跌逾1%,下跌個股近4600只

三大指數均跌逾1%,下跌個股近4600只

界面新聞
2026-03-30 09:56:54
不結婚怎么解決生理需求?62歲的陳瑾,用實際行動給出了正確答案

不結婚怎么解決生理需求?62歲的陳瑾,用實際行動給出了正確答案

鯨探所長
2026-03-30 14:33:32
在醫院你遭遇過最羞恥的事是什么?網友:一個比一個炸裂啊

在醫院你遭遇過最羞恥的事是什么?網友:一個比一個炸裂啊

解讀熱點事件
2026-02-04 00:05:07
笑死我了!一位三年級小朋友趁媽媽洗澡的縫隙時間,和豆包的對話

笑死我了!一位三年級小朋友趁媽媽洗澡的縫隙時間,和豆包的對話

夜深愛雜談
2026-03-21 19:50:42
朝鮮國防科學院院長脫軍裝了?

朝鮮國防科學院院長脫軍裝了?

IN朝鮮
2026-03-30 15:06:40
南非奧運冠軍斥性別檢測“是對女性不尊重”,特朗普發文祝賀新規

南非奧運冠軍斥性別檢測“是對女性不尊重”,特朗普發文祝賀新規

我是盲流
2026-03-30 07:35:11
悲哀!42歲男子一直沒找到工作,被父親怒斥好吃懶做,哭訴怎么辦

悲哀!42歲男子一直沒找到工作,被父親怒斥好吃懶做,哭訴怎么辦

火山詩話
2026-03-30 07:02:48
快船5連勝雙殺雄鹿!小卡連續51場20+分 大洛獲致敬迎蓋帽里程碑

快船5連勝雙殺雄鹿!小卡連續51場20+分 大洛獲致敬迎蓋帽里程碑

羅說NBA
2026-03-30 06:00:26
44名美軍死亡只是開始!

44名美軍死亡只是開始!

安安說
2026-03-29 12:50:51
人口告別世界第一?二孩催生無效后,國家終于向住房出手了

人口告別世界第一?二孩催生無效后,國家終于向住房出手了

豬小艷吖
2026-03-16 19:59:46
李榮浩怒斥單依純不到24小時,薛之謙罕見發聲,贏得全網好感

李榮浩怒斥單依純不到24小時,薛之謙罕見發聲,贏得全網好感

往史過眼云煙
2026-03-30 14:36:04
本月開始中國或將迎來4大漲價潮:除油價以外,這4類也要漲價了

本月開始中國或將迎來4大漲價潮:除油價以外,這4類也要漲價了

混沌錄
2026-03-28 15:49:05
被張雪峰懟慘而掐掉的應該是局座張召忠,這是他的短腿

被張雪峰懟慘而掐掉的應該是局座張召忠,這是他的短腿

雪中風車
2026-03-30 09:51:26
世界上五個最不務正業的科學家!看完三觀都碎了…

世界上五個最不務正業的科學家!看完三觀都碎了…

新浪財經
2026-03-12 09:55:40
沙溢當眾毆打李晨,被告上仲裁會:永遠不要輕易評價一個人

沙溢當眾毆打李晨,被告上仲裁會:永遠不要輕易評價一個人

圓夢的小老頭
2026-03-15 03:37:22
蒯曼3-2盧茨采訪!回應三四局連丟與后續調整,展望下場王艾米!

蒯曼3-2盧茨采訪!回應三四局連丟與后續調整,展望下場王艾米!

籃球資訊達人
2026-03-30 12:35:44
2007年,孔令儀在上海宋慶齡陵園掃墓時的留影,第二年她就去世了

2007年,孔令儀在上海宋慶齡陵園掃墓時的留影,第二年她就去世了

芳芳歷史燴
2026-03-30 12:05:05
2026-03-30 15:36:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
467文章數 69關注度
往期回顧 全部

科技要聞

DeepSeek性能異常問題已解決,服務恢復

頭條要聞

美國如果發動地面戰 本次戰事軍費或突破10萬億美元

頭條要聞

美國如果發動地面戰 本次戰事軍費或突破10萬億美元

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

教育
手機
親子
數碼
時尚

教育要聞

關注!西城市重點中學招聘教師啦

手機要聞

古爾曼:若蘋果在自家地圖應用中引入廣告,或將“激怒用戶”

親子要聞

何怡華:做胎兒心臟守護者

數碼要聞

榮耀MagicBook 14/16 2026筆記本開啟新品預約

來到1980的周也,好毛利蘭

無障礙瀏覽 進入關懷版