337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

你的「龍蝦」真記得你嗎?劍橋發布長期個性化記憶基準ATM-Bench

0
分享至



ATM-Bench 將「個人 AI 助手是否真的記得你」這件事,變成了一個研究的測試基準。結果并不樂觀:專用記憶智能體系統普遍低于 20%,而 OpenClaw、Codex、Claude Code 等通用智能體普遍表現不佳,最高準確率不到 40%。

想象一個場景:媽媽問我:「你上次去日本旅行幫我買的相機,現在還在保修期內嗎?」

對人類來說,這不算難。就算一時記不起來,也可以翻翻收據、照片,或者查一下當時的郵件。大腦會將線索串起來,逐漸定位或是搜索到相關記憶。但對今天的 AI 來說,這類問題遠沒有看上去那么簡單。

最近,來自劍橋大學的團隊開源了面向 AI 個人助理的長期記憶基準測試 ATM-Bench。他們評測一個直接的問題:當 AI 真正面對一個人多年真實生活數據時,它到底能不能「記住你」?

實驗結果并不樂觀。在該 ATM-Bench-Hard 基準上,當前非常熱門的開源智能體「小龍蝦」OpenClaw 僅達到 25.4% 的準確率;而被許多人視為編程智能體標桿、搭載 Claude Opus 4.6 的 Claude Code 也只有 33.8%。至于多數開源專用記憶系統,準確率甚至低于 20%。



  • 論文地址: https://arxiv.org/abs/2603.01990
  • 項目主頁: https://atmbench.github.io



視頻鏈接:https://mp.weixin.qq.com/s/__7ldldfZfyXsNVGHq6AnQ?click_id=136

ATM-Bench:系統評估 AI 長期個性化記憶能力的基準

過去已經有不少工作在評估 AI 的「記憶能力」,例如 LoCoMo、LongMemEval 等,它們大多聚焦于對話歷史,但真實世界中的個人記憶,遠不止聊天記錄。一個人的生活記憶通常分散在:

  • 照片:旅行、聚會、用餐、日常片段
  • 視頻:重要時刻、活動過程、環境變化
  • 郵件:機票、酒店、餐廳預訂、票據、確認函

而且這些記憶往往橫跨幾年,互相之間并不對其。為此,ATM-Bench 提出了首個面向長期、多模態、多來源、個性化指代記憶問答的基準。它的幾個關鍵特征是:

  • 時間跨度約 4 年;
  • 覆蓋圖像、視頻、郵件三類模態,超一萬條記憶數據;
  • 記憶數據來自真實個人生活,而非合成對話;
  • 圖像、視頻數據包含地點、時間等元數據,地點包含 4 大洲;
  • 包含 1000 + 條完全人工標注的問題、答案與證據。

ATM-Bench 考驗了智能體能不能像一個真正的個人助理那樣,找到隱藏在記憶庫深處的正確記憶,并給出可靠答案。

挑戰 AI 的記憶盲區

ATM-Bench 的核心難點包含:

  • 個性化指代:我的寵物貓「Grace」「我們上次那趟葡萄牙旅行」;
  • 多來源拼接:照片時間戳要和郵件確認函對齊;
  • 記憶沖突:預訂金額和最終發票金額不一致;
  • 元數據噪音:GPS 由于定位準確度本身就可能出錯。

這里展示了三種難題的案例。

個性化引用解析 ——Grace 到底是誰?

示例:「我想剪一個視頻發小紅書,幫我把 Grace 偷偷摸摸的照片視頻找出來。」

  • 判斷 Grace 是朋友、家人,還是寵物;
  • 在圖片或視頻里識別這個對象;
  • 再理解「偷偷摸摸」這種帶主觀色彩的描述。



證據沖突怎么選?

示例:「我最近去葡萄牙旅行住酒店花了多少錢?」

這類問題常常對應多份證據:過時的預訂確認郵件,最終結算發票等。

AI 需要理解不同來源之間可能存在沖突,也需要判斷哪條信息更新得更晚、可信度更高。即使是 GPT-5.2 或者是 Opus-4.6,也拿著過時的預訂郵件而不是最終的發票當作答案。



看不見的線索,才最考驗 AI 的長期記憶

示例:「我在 Fancett 餐廳點了什么?」

陷阱在于:「Fancett」這個名字只出現在郵件確認單里,而照片本身并沒有 GPS 標簽。

要回答這個問題,AI 必須先:

  1. 從郵件中找到與 Fancett 相關的預訂信息;
  2. 提取對應時間并鎖定時間窗口;
  3. 再跨模態到相冊中找到同一時段的照片;
  4. 最后從視覺內容中判斷點了什么菜。

這類問題僅靠單一模態無法解決,需在郵件中挖掘文本線索,將時間范圍縮小,找到照片并回答問題。少了任何一環,問題都無法被正確回答。



實驗結果

團隊在 ATM-Bench-Hard 上測試了多種專用記憶系統,包括 A-Mem、HippoRAG2、mem0、MemoryOS。

結果并不理想:最好的系統準確率不到 20%。這些系統本來就是為記憶而設計的,但當任務超過了僅僅是對話歷史,記憶變得真實、長期、個性化、跨模態的生活場景時,它們依然顯得力不從心。

除開源專用記憶系統之外,團隊還測試了當前最強的通用智能體系統。這類智能體具備完整的代碼執行能力、文件系統訪問權限和工具調用能力,具有比專用記憶系統擁有更強的工程能力與搜索能力。



核心發現:

  1. 表現最好的 Codex 也只有 39.7% 的準確率,連及格線都夠不著;
  2. Claude Code + Opus 4.6 作為編程智能體的標桿,也只有 33.8%,盡管明顯優于多數專用記憶系統,但仍難以勝任真實長期記憶 QA;
  3. OpenCode(Kimi K2.5)達到 30.3%,而 OpenClaw(Kimi K2.5)為 25.4%;
  4. Token 開銷非常高:Codex 消耗了 15.46M tokens,OpenClaw 也達到 9.63M,即便投入大量工具調用與上下文預算,效果仍然有限。

這說明,即便給 AI 配齊代碼執行、文件搜索、索引構建等整套工具鏈,長期個性化記憶問答仍然是一個根本性難題。

ATM-Bench 的實驗結果雖然「慘淡」,但作者團隊相信這為未來的長期記憶機制與個性化 AI 助手的研究開辟了新的方向。

OpenClaw、Codex、Claude Code 的集體表現不佳告訴我們:工具鏈再完善、模型再強大,也彌補不了記憶架構上的根本缺陷。

當 AI 真正能夠像人類一樣,在數年的記憶長河中準確檢索、關聯、推理,我們離真正的「個性化 AI」才會更近一步。

在那之前,也許我們不該對智能體的記憶能力期待太高,畢竟,它們連「去年給媽媽買的相機」都記不住,OpenClaw、Codex、Claude Code 都不行。

數據集已開源

ATM-Bench 數據集現已在 HuggingFace 上線:

  • https://huggingface.co/datasets/Jingbiao/ATM-Bench

包含:

  • 完全人工標注的 1069 個 QA 對
  • 多模態證據標注
  • NIAH 大海撈針評估支持
  • 開箱即用的基準測試代碼

作者介紹

梅敬標,劍橋大學機器智能實驗室博士四年級在讀,師從 Bill Byrne 教授,獲劍橋信托基金獎學金資助。本科及碩士均畢業于劍橋大學工程系,主修信息與計算機工程與電子工程。

其主要研究方向為多模態大語言模型的應用,涵蓋多模態檢索、模型安全、強化學習及智能體系統等領域。相關成果已發表于 ACL、NeurIPS、ICLR、NAACL、EMNLP 等國際頂級會議,累計發表論文十余篇。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
尷尬!董宇輝被吐槽:喜歡支教,一天沒去;不喜歡帶貨,一天沒停

尷尬!董宇輝被吐槽:喜歡支教,一天沒去;不喜歡帶貨,一天沒停

火山詩話
2026-04-21 06:59:47
馬斯克暴走官宣:Grok 5就是AGI!五月連轟兩代萬億怪獸,OpenAI慌了

馬斯克暴走官宣:Grok 5就是AGI!五月連轟兩代萬億怪獸,OpenAI慌了

新智元
2026-04-20 12:07:54
許家印認罪!2.4萬億窟窿,家族只拿走500億,其余真金白銀去哪了

許家印認罪!2.4萬億窟窿,家族只拿走500億,其余真金白銀去哪了

小嵩
2026-04-20 13:52:49
湖人好消息!東契奇已參加投籃訓練 為首輪復出釋放關鍵信號

湖人好消息!東契奇已參加投籃訓練 為首輪復出釋放關鍵信號

羅說NBA
2026-04-21 07:57:22
張雪回應比賽提前結束:如果繼續比賽可能引發安全事故;“賽車圈還是很干凈的,每個人都為了自己的信仰拼搏”

張雪回應比賽提前結束:如果繼續比賽可能引發安全事故;“賽車圈還是很干凈的,每個人都為了自己的信仰拼搏”

大風新聞
2026-04-20 10:28:40
中國第一巨人鮑喜順:不聽醫生勸告非要生子,現在兒子長到多高?

中國第一巨人鮑喜順:不聽醫生勸告非要生子,現在兒子長到多高?

糖逗在娛樂
2026-04-21 06:29:05
拉鋸戰!騎士領先10分被迫近:哈登16分,英格拉姆6中0一分未得

拉鋸戰!騎士領先10分被迫近:哈登16分,英格拉姆6中0一分未得

體壇小李
2026-04-21 08:23:39
狼隊確認降級!贏過維拉利物浦,本周決定熱刺命運

狼隊確認降級!贏過維拉利物浦,本周決定熱刺命運

體壇周報
2026-04-21 08:46:09
歐洲媒體哀嚎“一切結束了”,荷蘭掐斷光刻機,坑的卻是自己人!

歐洲媒體哀嚎“一切結束了”,荷蘭掐斷光刻機,坑的卻是自己人!

幾人盡棄
2026-04-19 23:20:38
何猷君家保姆買彩票中了3000萬,保姆樂壞了,拒不辭職!轉頭第一句話是:你想要什么,我都買給你

何猷君家保姆買彩票中了3000萬,保姆樂壞了,拒不辭職!轉頭第一句話是:你想要什么,我都買給你

LULU生活家
2026-04-20 14:34:28
41連敗歷史最差!四川遭江蘇橫掃跨季46連敗 龐崢麟17分

41連敗歷史最差!四川遭江蘇橫掃跨季46連敗 龐崢麟17分

醉臥浮生
2026-04-20 21:13:51
賠了夫人又折兵!以為能“毀掉”全紅嬋,不料自己先被扒個底朝天

賠了夫人又折兵!以為能“毀掉”全紅嬋,不料自己先被扒個底朝天

樂享人生風雨
2026-04-15 20:41:09
她們突然取消了10個城市的巡演?

她們突然取消了10個城市的巡演?

奮斗在韓國
2026-04-20 19:18:27
認罪剛一天!許家印長子每月4100萬生活費,家族資產黑幕全揭開

認罪剛一天!許家印長子每月4100萬生活費,家族資產黑幕全揭開

番外行
2026-04-20 12:46:52
失蹤足足5天后,美軍終于承認:價值16億的最強無人機在中東沒了

失蹤足足5天后,美軍終于承認:價值16億的最強無人機在中東沒了

混沌錄
2026-04-20 20:32:11
55歲上海炒股冠軍罕見發聲:如果本金有20W,建議死磕這五條鐵律

55歲上海炒股冠軍罕見發聲:如果本金有20W,建議死磕這五條鐵律

股經縱橫談
2026-04-19 19:03:09
女騎手兩年暴漲35%,女司機猛增75%,中年女人為何搶著跑車?

女騎手兩年暴漲35%,女司機猛增75%,中年女人為何搶著跑車?

老特有話說
2026-04-17 17:19:57
終極較量!對日反擊戰,全面打響了!

終極較量!對日反擊戰,全面打響了!

大嘴說天下
2026-04-20 22:40:03
今夜炸鍋!兩大AI科技股業績暴雷、千億市值高位懸頂

今夜炸鍋!兩大AI科技股業績暴雷、千億市值高位懸頂

風風順
2026-04-21 06:55:19
零跑汽車股價閃崩10%,董事長高呼“活下來”!去年單車利潤只有1810元…

零跑汽車股價閃崩10%,董事長高呼“活下來”!去年單車利潤只有1810元…

深藍財經
2026-04-20 18:47:13
2026-04-21 09:16:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12813文章數 142633關注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

頭條要聞

牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經要聞

減速機訂單已排到明年!

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

數碼
家居
手機
公開課
軍事航空

數碼要聞

16GB能當20GB用!華為超空間內存技術適配計劃公布:Mate X7系列6月推送

家居要聞

自然慢調 慢享時光

手機要聞

庫克發布感謝信,感謝蘋果iPhone等用戶15年來的信任與支持

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關懷版