網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

KAIST等機(jī)構(gòu)聯(lián)合揭示AI在實(shí)時(shí)知識(shí)更新中的困境

2026-03-20 19:00:57　來(lái)源: 至頂AI實(shí)驗(yàn)室

天津舉報(bào)

分享至

在信息爆炸的時(shí)代，知識(shí)每時(shí)每刻都在更新變化。股價(jià)在波動(dòng)，新聞在刷新，人們的狀態(tài)在改變，世界在不斷演進(jìn)。然而，當(dāng)我們讓那些被譽(yù)為"智能"的大語(yǔ)言模型來(lái)處理這些實(shí)時(shí)變化的信息時(shí)，它們表現(xiàn)如何？最近，由韓國(guó)科學(xué)技術(shù)院（KAIST）、北卡羅來(lái)納大學(xué)教堂山分校、谷歌、KRAFTON、Adobe Research和紐約大學(xué)聯(lián)合開(kāi)展的一項(xiàng)研究揭示了一個(gè)令人深思的現(xiàn)象：即使是最先進(jìn)的AI模型，在面對(duì)不斷更新的知識(shí)流時(shí)，也常常顯得力不從心。

這項(xiàng)研究發(fā)表于2026年3月，題為《Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams》。研究團(tuán)隊(duì)為了探究這一問(wèn)題，開(kāi)發(fā)了一個(gè)名為"OAKS"（Online Adaptation to Continual Knowledge Streams，在線(xiàn)適應(yīng)持續(xù)知識(shí)流）的全新評(píng)估體系，專(zhuān)門(mén)用來(lái)檢驗(yàn)AI模型在面對(duì)連續(xù)變化知識(shí)時(shí)的應(yīng)對(duì)能力。

設(shè)想一個(gè)報(bào)紙編輯的工作場(chǎng)景：每天都有新消息涌入，同一個(gè)事件可能隨著時(shí)間推移發(fā)生多次變化。比如某場(chǎng)體育比賽的比分在不斷變動(dòng)，或者某位政治人物的立場(chǎng)在一天內(nèi)發(fā)生了轉(zhuǎn)變。一個(gè)優(yōu)秀的編輯需要能夠?qū)崟r(shí)跟蹤這些變化，準(zhǔn)確記住最新的狀態(tài)，并在被問(wèn)及時(shí)給出正確的答案。然而，研究團(tuán)隊(duì)發(fā)現(xiàn)，當(dāng)前的AI大語(yǔ)言模型在扮演這樣的"編輯"角色時(shí)，往往表現(xiàn)得像一個(gè)容易分心、記性不好的助手。

研究團(tuán)隊(duì)構(gòu)建了兩個(gè)獨(dú)特的數(shù)據(jù)集來(lái)測(cè)試AI的這種能力。第一個(gè)數(shù)據(jù)集名為OAKS-BABI，基于經(jīng)典的推理測(cè)試題目，但做了創(chuàng)新性改造。他們將原本靜態(tài)的問(wèn)答變成了動(dòng)態(tài)的知識(shí)追蹤游戲。比如，在故事進(jìn)行過(guò)程中，餐桌上士兵玩具的數(shù)量會(huì)不斷變化：開(kāi)始有十個(gè)，后來(lái)減少到八個(gè)，再變成七個(gè)，最后只剩下五個(gè)。AI模型需要在故事的每個(gè)節(jié)點(diǎn)都能準(zhǔn)確回答"餐桌上現(xiàn)在有多少個(gè)士兵玩具？"這樣看似簡(jiǎn)單的問(wèn)題。

第二個(gè)數(shù)據(jù)集OAKS-Novel則更加貼近現(xiàn)實(shí)。研究團(tuán)隊(duì)選擇了39部文學(xué)名著，包括《傲慢與偏見(jiàn)》、《八十天環(huán)游世界》、《弗蘭肯斯坦》等，將這些小說(shuō)分割成小段，每段約2000個(gè)詞匯。隨著故事情節(jié)的推進(jìn)，人物的狀態(tài)、關(guān)系、想法都在發(fā)生變化。比如在《傲慢與偏見(jiàn)》中，伊麗莎白對(duì)達(dá)西先生的看法就經(jīng)歷了從厭惡到尊敬再到愛(ài)慕的轉(zhuǎn)變過(guò)程。AI需要在閱讀每個(gè)片段后，都能準(zhǔn)確回答關(guān)于人物當(dāng)前狀態(tài)的問(wèn)題。

這樣的測(cè)試設(shè)計(jì)就像給AI做了一次"記憶力體檢"。傳統(tǒng)的AI評(píng)估往往是一次性給出所有信息，然后提問(wèn)，就像讓學(xué)生看完整本教科書(shū)后參加考試。而OAKS的測(cè)試方式更像是在學(xué)習(xí)過(guò)程中不斷進(jìn)行小測(cè)驗(yàn)，檢查學(xué)生是否真的在跟上課程進(jìn)度，而不是只會(huì)死記硬背。

在這項(xiàng)全面的評(píng)估中，研究團(tuán)隊(duì)測(cè)試了14個(gè)不同的語(yǔ)言模型，包括開(kāi)源的Qwen系列、GPT-OSS、Gemma等，以及商業(yè)化的Gemini系列。測(cè)試結(jié)果令人震驚：即使是表現(xiàn)最好的模型，在OAKS-BABI上的準(zhǔn)確率也只有66.3%，在OAKS-Novel上為75.5%。這意味著，在處理動(dòng)態(tài)變化的知識(shí)時(shí)，即使是最先進(jìn)的AI也有三分之一到四分之一的時(shí)間會(huì)給出錯(cuò)誤答案。

更讓研究團(tuán)隊(duì)擔(dān)憂(yōu)的是，當(dāng)知識(shí)變化頻繁時(shí)，AI的表現(xiàn)會(huì)進(jìn)一步下降。在變化最頻繁的測(cè)試場(chǎng)景中，模型的準(zhǔn)確率下降到了33.3%和53.0%。這就好比讓一個(gè)人同時(shí)跟蹤多個(gè)快速變化的股票價(jià)格，人越多越容易出錯(cuò)。

有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)了不同AI模型的"性格差異"。一些模型表現(xiàn)得像"敏感型"角色，總是急于更新自己的答案，即使在不必要的時(shí)候也會(huì)改變判斷，導(dǎo)致頻繁的錯(cuò)誤修正。而另一些模型則表現(xiàn)得像"固執(zhí)型"角色，即使面對(duì)明確的新信息也不愿意改變已有的觀(guān)點(diǎn)，錯(cuò)過(guò)了重要的更新時(shí)機(jī)。

通過(guò)對(duì)模型行為的細(xì)致分析，研究團(tuán)隊(duì)還發(fā)現(xiàn)了幾種典型的"失誤模式"。有些AI表現(xiàn)出"獲取延遲"的問(wèn)題，就像反應(yīng)遲鈍的學(xué)生，總是慢半拍才意識(shí)到信息已經(jīng)更新。有些則容易"分心"，明明已經(jīng)掌握了正確信息，卻因?yàn)楹罄m(xù)無(wú)關(guān)內(nèi)容的干擾而改變了答案。還有一些表現(xiàn)出"完全錯(cuò)過(guò)"的問(wèn)題，對(duì)某些變化視而不見(jiàn)，從始至終都沒(méi)能抓住要點(diǎn)。

研究團(tuán)隊(duì)嘗試了多種改進(jìn)策略來(lái)提升AI的表現(xiàn)。他們測(cè)試了檢索增強(qiáng)生成技術(shù)，這就像給AI配備一個(gè)智能助手，專(zhuān)門(mén)負(fù)責(zé)從過(guò)往信息中找出相關(guān)內(nèi)容。然而，這種方法的效果并不理想，有時(shí)甚至?xí)屒闆r變得更糟，因?yàn)闄z索到的信息可能過(guò)時(shí)或不相關(guān)，反而成為干擾因素。

他們還嘗試了所謂的"智能記憶系統(tǒng)"，模仿人腦的記憶機(jī)制，讓AI能夠更好地組織和更新知識(shí)。這些系統(tǒng)雖然在某些特定場(chǎng)景下有所改善，但整體表現(xiàn)仍然差強(qiáng)人意。就像給一個(gè)本來(lái)就記性不好的人配備再好的記事本，如果基本的記憶和理解能力有問(wèn)題，工具也只能起到有限的幫助。

最有意思的發(fā)現(xiàn)之一是關(guān)于AI"思考模式"的影響。當(dāng)研究團(tuán)隊(duì)啟用模型的"內(nèi)部思考"功能時(shí)，AI的表現(xiàn)有了明顯提升。這就像讓學(xué)生在考試時(shí)可以寫(xiě)草稿紙，把思考過(guò)程展現(xiàn)出來(lái)，往往能得到更準(zhǔn)確的答案。然而，即使在這種最優(yōu)條件下，AI的表現(xiàn)仍然遠(yuǎn)未達(dá)到人類(lèi)的水平。

通過(guò)對(duì)不同類(lèi)型問(wèn)題的深入分析，研究團(tuán)隊(duì)發(fā)現(xiàn)AI在處理需要綜合多個(gè)信息片段的"橋接型"問(wèn)題時(shí)表現(xiàn)最差。這類(lèi)問(wèn)題需要同時(shí)跟蹤多個(gè)狀態(tài)變化，就像同時(shí)關(guān)注多個(gè)運(yùn)動(dòng)員在接力賽中的位置變化。相比之下，只需要關(guān)注單一信息變化的"追蹤型"問(wèn)題雖然也有挑戰(zhàn)，但AI的表現(xiàn)要稍好一些。

隨著時(shí)間推移，AI的表現(xiàn)還會(huì)呈現(xiàn)出明顯的衰退趨勢(shì)。在測(cè)試的后期階段，模型的準(zhǔn)確率會(huì)顯著下降，仿佛隨著信息量的積累，AI逐漸變得"疲憊"和"混亂"。這種現(xiàn)象在現(xiàn)實(shí)應(yīng)用中可能帶來(lái)嚴(yán)重后果，想象一下如果新聞播報(bào)AI在播報(bào)一天新聞的后半段開(kāi)始頻頻出錯(cuò)，會(huì)造成怎樣的影響。

研究團(tuán)隊(duì)特別關(guān)注了AI在處理文學(xué)作品時(shí)的表現(xiàn)差異。與合成數(shù)據(jù)相比，真實(shí)文學(xué)作品中的信息變化更加微妙和復(fù)雜。人物的心理狀態(tài)變化、故事情節(jié)的轉(zhuǎn)折、背景信息的披露，這些都需要更細(xì)致的理解和追蹤能力。結(jié)果顯示，AI在處理這類(lèi)更貼近真實(shí)世界的信息時(shí)，表現(xiàn)確實(shí)不如在合成數(shù)據(jù)上那樣相對(duì)穩(wěn)定。

令人深思的是，研究還揭示了AI模型規(guī)模與性能之間的復(fù)雜關(guān)系。雖然更大規(guī)模的模型通常表現(xiàn)更好，但這種提升并不總是線(xiàn)性的，而且即使是最大的模型也遠(yuǎn)未解決根本問(wèn)題。這提示我們，單純?cè)黾幽Ｐ鸵?guī)模可能不是解決動(dòng)態(tài)知識(shí)處理問(wèn)題的最佳路徑。

這項(xiàng)研究對(duì)我們理解AI能力的邊界具有重要意義。在當(dāng)今這個(gè)信息瞬息萬(wàn)變的時(shí)代，能夠?qū)崟r(shí)適應(yīng)新知識(shí)的能力變得越來(lái)越重要。無(wú)論是金融市場(chǎng)分析、新聞報(bào)道、醫(yī)療診斷，還是日常的智能助手應(yīng)用，都需要AI能夠準(zhǔn)確跟蹤和處理動(dòng)態(tài)變化的信息。

然而，這項(xiàng)研究的結(jié)果表明，我們距離這個(gè)目標(biāo)還有相當(dāng)長(zhǎng)的路要走。當(dāng)前的AI雖然在許多靜態(tài)任務(wù)上表現(xiàn)出色，但在面對(duì)動(dòng)態(tài)、連續(xù)變化的知識(shí)時(shí)，仍然存在顯著的局限性。這種局限性不僅體現(xiàn)在準(zhǔn)確率上，更體現(xiàn)在AI對(duì)變化時(shí)機(jī)的感知、對(duì)信息重要性的判斷，以及在復(fù)雜信息環(huán)境中保持一致性的能力上。

說(shuō)到底，這項(xiàng)研究為我們敲響了一記警鐘。在享受AI帶來(lái)的便利的同時(shí)，我們也需要清醒地認(rèn)識(shí)到它的局限性。特別是在那些信息快速變化、準(zhǔn)確性要求極高的場(chǎng)景中，我們不能盲目依賴(lài)AI的判斷。這項(xiàng)研究不僅為AI研究指明了新的方向，也提醒我們?cè)谑褂肁I技術(shù)時(shí)需要保持理性和謹(jǐn)慎的態(tài)度。

歸根結(jié)底，雖然AI已經(jīng)在許多方面展現(xiàn)出了超越人類(lèi)的能力，但在動(dòng)態(tài)知識(shí)處理這個(gè)看似簡(jiǎn)單實(shí)則復(fù)雜的任務(wù)上，它們還有很長(zhǎng)的路要走。這項(xiàng)研究的價(jià)值不僅在于揭示了問(wèn)題，更在于為后續(xù)的改進(jìn)提供了明確的方向和評(píng)估標(biāo)準(zhǔn)。相信隨著研究的深入，我們終將找到讓AI真正"跟上時(shí)代節(jié)拍"的方法。

Q&A

Q1：OAKS評(píng)估體系是什么？

A：OAKS是由KAIST等機(jī)構(gòu)開(kāi)發(fā)的專(zhuān)門(mén)測(cè)試AI處理動(dòng)態(tài)知識(shí)能力的評(píng)估體系。它通過(guò)持續(xù)更新的信息流來(lái)測(cè)試AI是否能實(shí)時(shí)跟蹤知識(shí)變化，就像測(cè)試編輯能否準(zhǔn)確跟蹤不斷變化的新聞一樣。

Q2：為什么大語(yǔ)言模型在處理動(dòng)態(tài)知識(shí)時(shí)表現(xiàn)不佳？

A：研究發(fā)現(xiàn)AI模型存在多種問(wèn)題：有些過(guò)度敏感頻繁更新答案，有些過(guò)于固執(zhí)拒絕更新，還有些容易被無(wú)關(guān)信息分心。即使最先進(jìn)的模型準(zhǔn)確率也只有66-75%，在快速變化場(chǎng)景中更是降至33-53%。

Q3：這項(xiàng)研究對(duì)現(xiàn)實(shí)應(yīng)用有什么影響？

A：這項(xiàng)研究揭示了AI在金融分析、新聞報(bào)道、智能助手等需要實(shí)時(shí)信息更新的場(chǎng)景中的局限性。提醒我們?cè)谑褂肁I處理動(dòng)態(tài)信息時(shí)需要格外謹(jǐn)慎，不能盲目依賴(lài)其判斷。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.