337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI 記憶首次超越人類:幻覺率壓至 0.5%,長對話不再瞎編

0
分享至


你有沒有過這樣的體驗(yàn)——跟AI助手聊了半天,把自己的家庭情況、工作經(jīng)歷、喜好厭惡一股腦兒說了個(gè)遍。結(jié)果下一次打開對話,它一臉茫然地問候你:"請問您叫什么名字?"

更讓人頭皮發(fā)麻的是另一種情況:你明明從來沒提過自己有個(gè)姐姐,它卻煞有介事地說"你姐姐在紐約上學(xué)吧"——語氣篤定得讓你差點(diǎn)信以為真。

第一種叫“健忘”,第二種叫“幻覺”,加在一起,就是今天AI記憶系統(tǒng)的兩大頑疾。最近,一家叫Synthius的AI公司發(fā)了一篇論文,提出了一個(gè)很有意思的解決思路:它借鑒了人類大腦的記憶機(jī)制,讓AI的記憶準(zhǔn)確率第一次超過了人類,同時(shí)還把“編造信息”的概率壓到了不到0.5%

(論文地址:https://arxiv.org/abs/2604.11563v1)

AI壓根沒有記憶,主流方案各有各的坑

別被ChatGPT們的“體貼”騙了,大語言模型本身是沒有任何持久記憶能力的。你每一次發(fā)消息給它,在它眼里都是“初次見面”。我們之所以覺得它“記得”上次聊了什么,純粹是因?yàn)橄到y(tǒng)在背后做了一件事:把你之前所有的聊天記錄,又原封不動地復(fù)制了一遍,粘貼在最新消息的前面。這種做法在技術(shù)上叫“全上下文重放”

想象一下,你每次給朋友發(fā)消息之前,都要把之前幾個(gè)月的聊天記錄全部重新看一遍,然后才能回一句“好的”。對話少的時(shí)候還行,聊了幾百條之后,光是“復(fù)習(xí)”就要花掉大量時(shí)間——這就是AI面對長對話時(shí)的真實(shí)處境。

這種“翻舊賬”式的做法至少有三個(gè)致命問題:

第一,越來越貴:每次回復(fù)都要重新處理全部歷史。這里的“處理”指的是模型的推理過程——大模型每次生成回答都要消耗算力,你喂給它的文字越多,成本越高。聊了500條消息后,光“復(fù)習(xí)”一次就要處理大約2.5萬個(gè)Token

第二,“中間遺忘”效應(yīng):科學(xué)家發(fā)現(xiàn),AI在處理超長文本時(shí),對開頭和結(jié)尾的信息記得清清楚楚,但對中間部分經(jīng)常“選擇性失憶”。就跟你看書只看開頭和結(jié)尾一樣——中間講了啥真沒記住。

第三,越聊越容易編:上下文越長,AI越容易把不同時(shí)候提到的信息攪和在一起,拼湊出一些你沒說過的話。三者疊加,導(dǎo)致一個(gè)尷尬的現(xiàn)實(shí):你跟AI聊得越久,它可能反而越不靠譜。

既然全量復(fù)讀太蠢,工程師們自然想了幾種更聰明的辦法。簡單來說有這三類:

“滑動窗口”——只保留最近20條消息,之前的一律不要。快、省,但丟了96%的信息——前面所有重要的背景全沒了,你重新提一嘴之前說過的話,AI可能完全接不上。 “摘要壓縮”——定期讓AI把舊對話壓縮成總結(jié)。省空間,但總結(jié)過程會丟失大量細(xì)節(jié)。比如你說過“我2023年3月到6月在東京實(shí)習(xí)”,幾輪壓縮后可能就變成了“我在日本待過”。 “向量檢索”(RAG)——這是目前業(yè)界最主流的方案。先把對話切成小塊,用嵌入模型給每段話打上“語義指紋”,需要時(shí)根據(jù)語義相似度搜索最相關(guān)的幾塊。但有個(gè)隱蔽缺陷:搜出來的東西不一定靠譜。你問“他的工作是什么”,系統(tǒng)返回幾條“看起來像”的片段,AI拿到這些似是而非的材料,很容易順著編出一個(gè)錯(cuò)誤答案。

這三種方案各有各的長處,但都留下了一個(gè)共同隱患:沒人認(rèn)真測過它們“瞎編”的概率有多高。就好比評選拍照手機(jī),只比誰拍得更清楚,沒人比誰美顏過度——方向就不對。更深層的問題在于,當(dāng)對話歷史越來越長,其中相互矛盾、過時(shí)或模棱兩可的信息越來越多,這種上下文污染會讓模型更容易被臟數(shù)據(jù)帶偏。

1813道題的考試,AI憑什么打敗人類

要講清楚這篇論文的貢獻(xiàn),先得了解它是怎么“打分”的。

研究人員使用了一套叫LoCoMo的公開基準(zhǔn)測試——這套考試的做法是:先找兩組人進(jìn)行多輪深度聊天,聊工作、家庭、健康、旅行、愛好,家長里短都聊。聊完后,研究者根據(jù)對話內(nèi)容出題。全部考試包含兩個(gè)維度——10組深度對話、20位參與者,涵蓋了從單跳事實(shí)查詢到復(fù)雜推理的多種難度聊完后,研究者根據(jù)對話內(nèi)容出了1813道題,分五種類型:

單跳事實(shí)查詢,比如“他的職業(yè)是什么?”,這種題只需一次檢索就能回答; 多跳推理,比如“他有沒有去過他大學(xué)室友所在的城市?”——需要先回憶室友是誰,再回憶室友所在城市,再做判斷,至少要跳兩步; 時(shí)間推理,比如“他在那家公司待了多久?”,考察模型對時(shí)序關(guān)系的理解; 開放推理,比如“根據(jù)他提到的信息,他可能適合什么工作?”,答案本身就不唯一; 以及最關(guān)鍵的誘導(dǎo)性問題——比如“你姐姐最近怎么樣?”而對話中從未出現(xiàn)過這個(gè)人。

其中最后一種“誘導(dǎo)性問題”最為關(guān)鍵——專門測試AI能不能勇敢地說“我不知道”。結(jié)果發(fā)現(xiàn),人類在這個(gè)考試上的正確率是87.9%。而之前最好的AI記憶系統(tǒng)MemMachine得分91.69%——已經(jīng)超過人類了,但它沒有報(bào)告誘導(dǎo)性問題的單獨(dú)得分,也就是說沒人知道它“瞎編”的概率有多高。

新思路:不是“搜聊天記錄”,而是“查個(gè)人檔案”

Synthius-Mem的核心思路:不要讓AI去“翻聊天記錄”,而是讓AI去“查一份已經(jīng)整理好的個(gè)人檔案”。

在你跟AI聊天的過程中,系統(tǒng)已經(jīng)在后臺悄悄從你的話語中提取關(guān)鍵信息,分門別類整理成一份結(jié)構(gòu)化記憶。等你提問時(shí),AI不是去翻原始聊天記錄,而是直接翻這份檔案。前者像是在一摞聊天記錄里大海撈針;后者像是打開一本編好目錄的檔案冊,直接翻到對應(yīng)頁碼。從信息論的角度看,這種做法本質(zhì)上是先壓縮再檢索:把原始對話的高冗余信息蒸餾為低冗余的結(jié)構(gòu)化事實(shí),既減少了檢索噪聲,又讓AI獲得了明確的置信度信號——有就是有,沒有就是沒有。

更有意思的是,檔案不是一個(gè)大雜燴。它參考了腦科學(xué)的研究成果,把記憶分成了六個(gè)“語義域”


為什么要分這么細(xì)?論文的回答是:因?yàn)槟愕拇竽X就是這么干的。腦科學(xué)發(fā)現(xiàn),人類大腦中“事件記憶”(海馬體)、“知識記憶”(新皮層)和“情緒偏好”(眶額葉)由不同的神經(jīng)回路分別處理。你回憶“昨天吃了什么”和“朋友叫什么”,走的是兩條完全不同的通道。

從工程角度看,這種分域設(shè)計(jì)天然適配知識圖譜的存儲結(jié)構(gòu)——每個(gè)語義域就是一張獨(dú)立的子圖,實(shí)體是節(jié)點(diǎn),關(guān)系是邊,查詢時(shí)只需在對應(yīng)子圖內(nèi)做圖遍歷,效率遠(yuǎn)高于在整個(gè)對話庫中做向量檢索。分域還帶來一個(gè)額外好處:不同語義域可以獨(dú)立更新、獨(dú)立壓縮,互不干擾。

為什么“分抽屜”能防幻覺?

傳統(tǒng)方案下,你問AI一個(gè)不存在的事情,向量數(shù)據(jù)庫總會返回幾條“看起來像”的內(nèi)容,AI拿到這些“噪音”很容易就編出答案。但“分域”方案下,如果你從來沒說過自己有姐姐,“社交關(guān)系”域里就不會有這個(gè)條目。AI一查——空的。這個(gè)“空”本身就是一個(gè)明確信號:系統(tǒng)應(yīng)該回答“我不知道”,而不是瞎編。

成績單亮眼,但也沒那么完美

Synthius-Mem 核心成績單:

綜合準(zhǔn)確率:94.37%(人類基線:87.9%) 核心信息準(zhǔn)確率:98.64%(810道題僅錯(cuò)11道) 抗幻覺率:99.55%(442道誘導(dǎo)題僅錯(cuò)2道) 時(shí)間推理準(zhǔn)確率:89.32%

挑重點(diǎn)說。綜合準(zhǔn)確率領(lǐng)先人類6個(gè)多百分點(diǎn),并不是因?yàn)锳I“更聰明”,而是因?yàn)樗ㄟ^結(jié)構(gòu)化整理將關(guān)鍵信息從數(shù)萬條對話中精準(zhǔn)提煉出來,避免了人類閱讀長文本時(shí)的注意力衰減。99.55%的抗幻覺率最值得關(guān)注——值得注意的是,LoCoMo基準(zhǔn)測試自2024年在ACL會議上發(fā)布后,已成為記憶系統(tǒng)的標(biāo)尺——Mem0、MemOS、MemMachine等主流方案都在同一套卷子上考試,但鮮有系統(tǒng)把抗幻覺率單獨(dú)拎出來作為核心考核指標(biāo)。

公平起見,也有不那么好看的數(shù)字。“開放推理”得分78.26%,AI對需要綜合推斷的問題還不夠強(qiáng)。“邊緣細(xì)節(jié)”只有57.66%,但論文明確說這是有意為之——隨口提的餐廳名字、半開玩笑的綽號,AI不會記。因?yàn)槿绻裁措u毛蒜皮都存,記憶庫就會變成一個(gè)巨大的垃圾桶,真正重要的信息反而會被淹沒。

工程層面也有利好。全量重放在聊了500條消息后每回復(fù)一條要處理約2.6萬Token,而結(jié)構(gòu)化查詢只需約5000個(gè),推理成本降低了約80%。在“個(gè)人檔案”里找信息的平均耗時(shí)約22毫秒——大概是人類眨一次眼的十分之一,幾乎可以忽略不計(jì)。

不只是技術(shù)指標(biāo),更關(guān)乎信任

AI的記憶幻覺已經(jīng)開始在現(xiàn)實(shí)中惹麻煩了。2026年央視“3·15”晚會上,“向AI大模型投毒”的黑灰產(chǎn)業(yè)被曝光——有人故意在網(wǎng)頁植入虛假信息,通過數(shù)據(jù)投毒污染AI的知識來源,讓其搜索后信以為真,再傳播給更多用戶。更早之前,全國首例“AI幻覺”侵權(quán)案曾引發(fā)熱烈討論:一個(gè)高考生家長用AI查詢大學(xué)報(bào)考信息,AI不僅給出錯(cuò)誤答案,還非常自信地確認(rèn)了錯(cuò)誤信息,導(dǎo)致考生志愿填報(bào)受到影響。

而當(dāng)AI開始“記住”你——你的工作、家庭、朋友、偏好——“瞎編”的后果就從“給出了一個(gè)錯(cuò)誤答案”升級成了“編造了一個(gè)關(guān)于你的‘事實(shí)’”。試想一下:如果AI助手在你同事面前信誓旦旦地說“他跟我說過不喜歡你們團(tuán)隊(duì)”,而你從未說過這樣的話——這種“幻覺”的破壞力遠(yuǎn)比推薦錯(cuò)一本書嚴(yán)重得多。

所以這篇論文把抗幻覺能力視為整個(gè)記憶系統(tǒng)的安全底線。它的原話是:“一個(gè)記憶系統(tǒng)如果不敢說‘我不確定’,就不應(yīng)該被投入使用。”

AI記憶這個(gè)領(lǐng)域最近一兩年格外熱鬧。Mem0拿了2400萬美元融資,被亞馬遜AWS選為官方記憶服務(wù);MemOS、TiMem、MemMachine等方案不斷涌現(xiàn);清華大學(xué)、華東師范大學(xué)、北卡羅來納大學(xué)等頂尖學(xué)術(shù)團(tuán)隊(duì)也在同期推出各自的研究。整個(gè)賽道正從一個(gè)“小眾技術(shù)問題”變成AI Agent的“記憶層”基礎(chǔ)設(shè)施。行業(yè)預(yù)測到2030年,AI Agent的市場規(guī)模將達(dá)520億美元以上,而“記憶層”就是AI從“無狀態(tài)工具”升級為“有狀態(tài)伙伴”的關(guān)鍵——一個(gè)記不住你的AI,終究只是個(gè)高級搜索引擎。

Synthius-Mem這篇論文真正的價(jià)值,不在于它提出了一個(gè)完美的系統(tǒng),而在于它指明了一個(gè)方向:與其讓AI越來越努力地在海量原始對話中檢索,不如先把這些對話蒸餾成一份高質(zhì)量的結(jié)構(gòu)化記憶,再做精準(zhǔn)查詢。這種“先整理再查找”的思路,雖然樸素,卻可能是解決AI記憶幻覺最務(wù)實(shí)的路徑。

AI記憶的核心挑戰(zhàn),從來不是“記住更多”,而是“記住對的,不記錯(cuò)的”——這既是一個(gè)工程命題,也是一個(gè)信任命題。

當(dāng)AI開始真正走進(jìn)我們的生活,“記住你”這件事就不再只是一個(gè)技術(shù)指標(biāo),它更關(guān)乎信任。畢竟,你可以原諒一個(gè)朋友忘了你上次說過什么,但你很難原諒一個(gè)“智能助手”在別人面前,煞有介事地講了一件你從沒做過的事。(本文首發(fā)鈦媒體APP,作者 | 硅谷Tech_news,編輯 | 焦燕)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
從282群的錄屏看,就是陳某汐!網(wǎng)友:全紅嬋說活著就好,我悟了

從282群的錄屏看,就是陳某汐!網(wǎng)友:全紅嬋說活著就好,我悟了

開成運(yùn)動會
2026-04-14 18:32:59
環(huán)衛(wèi)工撿到藏著30萬現(xiàn)金的牛奶箱!在上海一小區(qū)垃圾站旁,失主居然不是來丟垃圾的人

環(huán)衛(wèi)工撿到藏著30萬現(xiàn)金的牛奶箱!在上海一小區(qū)垃圾站旁,失主居然不是來丟垃圾的人

環(huán)球網(wǎng)資訊
2026-04-15 14:32:25
“天生的壞種,典型的倀鬼”,小學(xué)生地鐵站一個(gè)動作,被全網(wǎng)討伐

“天生的壞種,典型的倀鬼”,小學(xué)生地鐵站一個(gè)動作,被全網(wǎng)討伐

妍妍教育日記
2026-04-16 09:10:09
文瑾瑩鬼門關(guān)前走一趟!高EQ:身體變大,心也寬了 9年前險(xiǎn)截肢

文瑾瑩鬼門關(guān)前走一趟!高EQ:身體變大,心也寬了 9年前險(xiǎn)截肢

ETtoday星光云
2026-04-16 16:20:10
歐冠4強(qiáng)出爐:拜仁vs巴黎,阿森納vs馬競,大概率以下2隊(duì)會師決賽

歐冠4強(qiáng)出爐:拜仁vs巴黎,阿森納vs馬競,大概率以下2隊(duì)會師決賽

小火箭愛體育
2026-04-16 10:11:44
中山市政務(wù)服務(wù)和數(shù)據(jù)管理局黨組書記葉永忠被查

中山市政務(wù)服務(wù)和數(shù)據(jù)管理局黨組書記葉永忠被查

南方都市報(bào)
2026-04-16 18:44:23
今晚開始!中央一套 中央八套黃金檔3部王炸劇播出!陣容好強(qiáng)

今晚開始!中央一套 中央八套黃金檔3部王炸劇播出!陣容好強(qiáng)

可樂談情感
2026-04-16 11:29:18
趙今麥,每個(gè)男人都想擁有的女孩樣板。

趙今麥,每個(gè)男人都想擁有的女孩樣板。

野狐饞師
2026-02-17 08:50:46
胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

飯小妹說歷史
2026-01-07 09:30:45
國民黨后院起火讓馬英九落淚,逼得他只能“六親不認(rèn)”?

國民黨后院起火讓馬英九落淚,逼得他只能“六親不認(rèn)”?

老夳古裝影視解說
2026-04-15 16:27:00
為什么訪問中國以后,很多“歐美的高管”回去時(shí)都感到壓力巨大?

為什么訪問中國以后,很多“歐美的高管”回去時(shí)都感到壓力巨大?

哭藍(lán)了海a
2026-04-15 11:28:59
王為念不忍了!狠狠給全紅嬋出了口惡氣,諂媚陳麗華終于真相大白

王為念不忍了!狠狠給全紅嬋出了口惡氣,諂媚陳麗華終于真相大白

幽棠的趣式
2026-04-16 03:21:31
存款市場出現(xiàn)大變局?5月1日起,定期存款“四不要”!

存款市場出現(xiàn)大變局?5月1日起,定期存款“四不要”!

貓叔東山再起
2026-04-16 09:25:08
郭沫若《滿江紅》,開篇就是名句,偉人隨手唱和一詞令人拍掌叫絕

郭沫若《滿江紅》,開篇就是名句,偉人隨手唱和一詞令人拍掌叫絕

長風(fēng)文史
2026-04-14 19:51:16
NBA夏季聯(lián)賽MVP!深圳男籃官宣:與約書亞·克里斯托弗完成簽約

NBA夏季聯(lián)賽MVP!深圳男籃官宣:與約書亞·克里斯托弗完成簽約

狼叔評論
2026-04-16 19:00:03
CBA7隊(duì)出局!11隊(duì)晉級,末輪門票懸念超大,廣東3對手掉隊(duì)

CBA7隊(duì)出局!11隊(duì)晉級,末輪門票懸念超大,廣東3對手掉隊(duì)

老吳說體育
2026-04-16 09:57:29
男子被老板罵“滾”后,立馬離開公司再沒來上班,1個(gè)月后被公司以曠工為由解除合同,法院:公司指令不明,并非曠工,公司支付賠償金159800元

男子被老板罵“滾”后,立馬離開公司再沒來上班,1個(gè)月后被公司以曠工為由解除合同,法院:公司指令不明,并非曠工,公司支付賠償金159800元

觀威海
2026-04-16 10:00:04
豬肝再次成為關(guān)注對象!醫(yī)生發(fā)現(xiàn):常吃豬肝,可能會收獲4大好處

豬肝再次成為關(guān)注對象!醫(yī)生發(fā)現(xiàn):常吃豬肝,可能會收獲4大好處

搖感軍事
2025-11-30 18:57:30
兌現(xiàn)目標(biāo)!37歲奧運(yùn)冠軍退役5個(gè)月減肥40斤 網(wǎng)友驚呼:變美認(rèn)不出

兌現(xiàn)目標(biāo)!37歲奧運(yùn)冠軍退役5個(gè)月減肥40斤 網(wǎng)友驚呼:變美認(rèn)不出

我愛英超
2026-04-14 10:44:22
男演員千萬別整容!鐘漢良新劇里的男四號,臉頰歪的真讓人出戲

男演員千萬別整容!鐘漢良新劇里的男四號,臉頰歪的真讓人出戲

往史過眼云煙
2026-04-16 14:43:01
2026-04-16 22:24:49
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
132375文章數(shù) 862097關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰在大模型上更高效

頭條要聞

上海業(yè)主傻眼 安保、保潔突然全離崗小區(qū)垃圾堆積成山

頭條要聞

上海業(yè)主傻眼 安保、保潔突然全離崗小區(qū)垃圾堆積成山

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財(cái)經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰生意迷霧

汽車要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

家居
時(shí)尚
健康
游戲
軍事航空

家居要聞

智能舒適 簡約風(fēng)尚

8個(gè)監(jiān)控?cái)z像頭,這就是“完美丈夫”對她的愛

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

PS5版優(yōu)化堪憂!《星空》Switch 2版本再泄露

軍事要聞

封鎖霍爾木茲海峽后 美釋放雙重信號

無障礙瀏覽 進(jìn)入關(guān)懷版