![]()
在信息爆炸的時(shí)代,知識(shí)每時(shí)每刻都在更新變化。股價(jià)在波動(dòng),新聞在刷新,人們的狀態(tài)在改變,世界在不斷演進(jìn)。然而,當(dāng)我們讓那些被譽(yù)為"智能"的大語(yǔ)言模型來(lái)處理這些實(shí)時(shí)變化的信息時(shí),它們表現(xiàn)如何?最近,由韓國(guó)科學(xué)技術(shù)院(KAIST)、北卡羅來(lái)納大學(xué)教堂山分校、谷歌、KRAFTON、Adobe Research和紐約大學(xué)聯(lián)合開(kāi)展的一項(xiàng)研究揭示了一個(gè)令人深思的現(xiàn)象:即使是最先進(jìn)的AI模型,在面對(duì)不斷更新的知識(shí)流時(shí),也常常顯得力不從心。
這項(xiàng)研究發(fā)表于2026年3月,題為《Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams》。研究團(tuán)隊(duì)為了探究這一問(wèn)題,開(kāi)發(fā)了一個(gè)名為"OAKS"(Online Adaptation to Continual Knowledge Streams,在線(xiàn)適應(yīng)持續(xù)知識(shí)流)的全新評(píng)估體系,專(zhuān)門(mén)用來(lái)檢驗(yàn)AI模型在面對(duì)連續(xù)變化知識(shí)時(shí)的應(yīng)對(duì)能力。
設(shè)想一個(gè)報(bào)紙編輯的工作場(chǎng)景:每天都有新消息涌入,同一個(gè)事件可能隨著時(shí)間推移發(fā)生多次變化。比如某場(chǎng)體育比賽的比分在不斷變動(dòng),或者某位政治人物的立場(chǎng)在一天內(nèi)發(fā)生了轉(zhuǎn)變。一個(gè)優(yōu)秀的編輯需要能夠?qū)崟r(shí)跟蹤這些變化,準(zhǔn)確記住最新的狀態(tài),并在被問(wèn)及時(shí)給出正確的答案。然而,研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前的AI大語(yǔ)言模型在扮演這樣的"編輯"角色時(shí),往往表現(xiàn)得像一個(gè)容易分心、記性不好的助手。
研究團(tuán)隊(duì)構(gòu)建了兩個(gè)獨(dú)特的數(shù)據(jù)集來(lái)測(cè)試AI的這種能力。第一個(gè)數(shù)據(jù)集名為OAKS-BABI,基于經(jīng)典的推理測(cè)試題目,但做了創(chuàng)新性改造。他們將原本靜態(tài)的問(wèn)答變成了動(dòng)態(tài)的知識(shí)追蹤游戲。比如,在故事進(jìn)行過(guò)程中,餐桌上士兵玩具的數(shù)量會(huì)不斷變化:開(kāi)始有十個(gè),后來(lái)減少到八個(gè),再變成七個(gè),最后只剩下五個(gè)。AI模型需要在故事的每個(gè)節(jié)點(diǎn)都能準(zhǔn)確回答"餐桌上現(xiàn)在有多少個(gè)士兵玩具?"這樣看似簡(jiǎn)單的問(wèn)題。
第二個(gè)數(shù)據(jù)集OAKS-Novel則更加貼近現(xiàn)實(shí)。研究團(tuán)隊(duì)選擇了39部文學(xué)名著,包括《傲慢與偏見(jiàn)》、《八十天環(huán)游世界》、《弗蘭肯斯坦》等,將這些小說(shuō)分割成小段,每段約2000個(gè)詞匯。隨著故事情節(jié)的推進(jìn),人物的狀態(tài)、關(guān)系、想法都在發(fā)生變化。比如在《傲慢與偏見(jiàn)》中,伊麗莎白對(duì)達(dá)西先生的看法就經(jīng)歷了從厭惡到尊敬再到愛(ài)慕的轉(zhuǎn)變過(guò)程。AI需要在閱讀每個(gè)片段后,都能準(zhǔn)確回答關(guān)于人物當(dāng)前狀態(tài)的問(wèn)題。
這樣的測(cè)試設(shè)計(jì)就像給AI做了一次"記憶力體檢"。傳統(tǒng)的AI評(píng)估往往是一次性給出所有信息,然后提問(wèn),就像讓學(xué)生看完整本教科書(shū)后參加考試。而OAKS的測(cè)試方式更像是在學(xué)習(xí)過(guò)程中不斷進(jìn)行小測(cè)驗(yàn),檢查學(xué)生是否真的在跟上課程進(jìn)度,而不是只會(huì)死記硬背。
在這項(xiàng)全面的評(píng)估中,研究團(tuán)隊(duì)測(cè)試了14個(gè)不同的語(yǔ)言模型,包括開(kāi)源的Qwen系列、GPT-OSS、Gemma等,以及商業(yè)化的Gemini系列。測(cè)試結(jié)果令人震驚:即使是表現(xiàn)最好的模型,在OAKS-BABI上的準(zhǔn)確率也只有66.3%,在OAKS-Novel上為75.5%。這意味著,在處理動(dòng)態(tài)變化的知識(shí)時(shí),即使是最先進(jìn)的AI也有三分之一到四分之一的時(shí)間會(huì)給出錯(cuò)誤答案。
更讓研究團(tuán)隊(duì)擔(dān)憂(yōu)的是,當(dāng)知識(shí)變化頻繁時(shí),AI的表現(xiàn)會(huì)進(jìn)一步下降。在變化最頻繁的測(cè)試場(chǎng)景中,模型的準(zhǔn)確率下降到了33.3%和53.0%。這就好比讓一個(gè)人同時(shí)跟蹤多個(gè)快速變化的股票價(jià)格,人越多越容易出錯(cuò)。
有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了不同AI模型的"性格差異"。一些模型表現(xiàn)得像"敏感型"角色,總是急于更新自己的答案,即使在不必要的時(shí)候也會(huì)改變判斷,導(dǎo)致頻繁的錯(cuò)誤修正。而另一些模型則表現(xiàn)得像"固執(zhí)型"角色,即使面對(duì)明確的新信息也不愿意改變已有的觀(guān)點(diǎn),錯(cuò)過(guò)了重要的更新時(shí)機(jī)。
通過(guò)對(duì)模型行為的細(xì)致分析,研究團(tuán)隊(duì)還發(fā)現(xiàn)了幾種典型的"失誤模式"。有些AI表現(xiàn)出"獲取延遲"的問(wèn)題,就像反應(yīng)遲鈍的學(xué)生,總是慢半拍才意識(shí)到信息已經(jīng)更新。有些則容易"分心",明明已經(jīng)掌握了正確信息,卻因?yàn)楹罄m(xù)無(wú)關(guān)內(nèi)容的干擾而改變了答案。還有一些表現(xiàn)出"完全錯(cuò)過(guò)"的問(wèn)題,對(duì)某些變化視而不見(jiàn),從始至終都沒(méi)能抓住要點(diǎn)。
研究團(tuán)隊(duì)嘗試了多種改進(jìn)策略來(lái)提升AI的表現(xiàn)。他們測(cè)試了檢索增強(qiáng)生成技術(shù),這就像給AI配備一個(gè)智能助手,專(zhuān)門(mén)負(fù)責(zé)從過(guò)往信息中找出相關(guān)內(nèi)容。然而,這種方法的效果并不理想,有時(shí)甚至?xí)屒闆r變得更糟,因?yàn)闄z索到的信息可能過(guò)時(shí)或不相關(guān),反而成為干擾因素。
他們還嘗試了所謂的"智能記憶系統(tǒng)",模仿人腦的記憶機(jī)制,讓AI能夠更好地組織和更新知識(shí)。這些系統(tǒng)雖然在某些特定場(chǎng)景下有所改善,但整體表現(xiàn)仍然差強(qiáng)人意。就像給一個(gè)本來(lái)就記性不好的人配備再好的記事本,如果基本的記憶和理解能力有問(wèn)題,工具也只能起到有限的幫助。
最有意思的發(fā)現(xiàn)之一是關(guān)于AI"思考模式"的影響。當(dāng)研究團(tuán)隊(duì)啟用模型的"內(nèi)部思考"功能時(shí),AI的表現(xiàn)有了明顯提升。這就像讓學(xué)生在考試時(shí)可以寫(xiě)草稿紙,把思考過(guò)程展現(xiàn)出來(lái),往往能得到更準(zhǔn)確的答案。然而,即使在這種最優(yōu)條件下,AI的表現(xiàn)仍然遠(yuǎn)未達(dá)到人類(lèi)的水平。
通過(guò)對(duì)不同類(lèi)型問(wèn)題的深入分析,研究團(tuán)隊(duì)發(fā)現(xiàn)AI在處理需要綜合多個(gè)信息片段的"橋接型"問(wèn)題時(shí)表現(xiàn)最差。這類(lèi)問(wèn)題需要同時(shí)跟蹤多個(gè)狀態(tài)變化,就像同時(shí)關(guān)注多個(gè)運(yùn)動(dòng)員在接力賽中的位置變化。相比之下,只需要關(guān)注單一信息變化的"追蹤型"問(wèn)題雖然也有挑戰(zhàn),但AI的表現(xiàn)要稍好一些。
隨著時(shí)間推移,AI的表現(xiàn)還會(huì)呈現(xiàn)出明顯的衰退趨勢(shì)。在測(cè)試的后期階段,模型的準(zhǔn)確率會(huì)顯著下降,仿佛隨著信息量的積累,AI逐漸變得"疲憊"和"混亂"。這種現(xiàn)象在現(xiàn)實(shí)應(yīng)用中可能帶來(lái)嚴(yán)重后果,想象一下如果新聞播報(bào)AI在播報(bào)一天新聞的后半段開(kāi)始頻頻出錯(cuò),會(huì)造成怎樣的影響。
研究團(tuán)隊(duì)特別關(guān)注了AI在處理文學(xué)作品時(shí)的表現(xiàn)差異。與合成數(shù)據(jù)相比,真實(shí)文學(xué)作品中的信息變化更加微妙和復(fù)雜。人物的心理狀態(tài)變化、故事情節(jié)的轉(zhuǎn)折、背景信息的披露,這些都需要更細(xì)致的理解和追蹤能力。結(jié)果顯示,AI在處理這類(lèi)更貼近真實(shí)世界的信息時(shí),表現(xiàn)確實(shí)不如在合成數(shù)據(jù)上那樣相對(duì)穩(wěn)定。
令人深思的是,研究還揭示了AI模型規(guī)模與性能之間的復(fù)雜關(guān)系。雖然更大規(guī)模的模型通常表現(xiàn)更好,但這種提升并不總是線(xiàn)性的,而且即使是最大的模型也遠(yuǎn)未解決根本問(wèn)題。這提示我們,單純?cè)黾幽P鸵?guī)模可能不是解決動(dòng)態(tài)知識(shí)處理問(wèn)題的最佳路徑。
這項(xiàng)研究對(duì)我們理解AI能力的邊界具有重要意義。在當(dāng)今這個(gè)信息瞬息萬(wàn)變的時(shí)代,能夠?qū)崟r(shí)適應(yīng)新知識(shí)的能力變得越來(lái)越重要。無(wú)論是金融市場(chǎng)分析、新聞報(bào)道、醫(yī)療診斷,還是日常的智能助手應(yīng)用,都需要AI能夠準(zhǔn)確跟蹤和處理動(dòng)態(tài)變化的信息。
然而,這項(xiàng)研究的結(jié)果表明,我們距離這個(gè)目標(biāo)還有相當(dāng)長(zhǎng)的路要走。當(dāng)前的AI雖然在許多靜態(tài)任務(wù)上表現(xiàn)出色,但在面對(duì)動(dòng)態(tài)、連續(xù)變化的知識(shí)時(shí),仍然存在顯著的局限性。這種局限性不僅體現(xiàn)在準(zhǔn)確率上,更體現(xiàn)在AI對(duì)變化時(shí)機(jī)的感知、對(duì)信息重要性的判斷,以及在復(fù)雜信息環(huán)境中保持一致性的能力上。
說(shuō)到底,這項(xiàng)研究為我們敲響了一記警鐘。在享受AI帶來(lái)的便利的同時(shí),我們也需要清醒地認(rèn)識(shí)到它的局限性。特別是在那些信息快速變化、準(zhǔn)確性要求極高的場(chǎng)景中,我們不能盲目依賴(lài)AI的判斷。這項(xiàng)研究不僅為AI研究指明了新的方向,也提醒我們?cè)谑褂肁I技術(shù)時(shí)需要保持理性和謹(jǐn)慎的態(tài)度。
歸根結(jié)底,雖然AI已經(jīng)在許多方面展現(xiàn)出了超越人類(lèi)的能力,但在動(dòng)態(tài)知識(shí)處理這個(gè)看似簡(jiǎn)單實(shí)則復(fù)雜的任務(wù)上,它們還有很長(zhǎng)的路要走。這項(xiàng)研究的價(jià)值不僅在于揭示了問(wèn)題,更在于為后續(xù)的改進(jìn)提供了明確的方向和評(píng)估標(biāo)準(zhǔn)。相信隨著研究的深入,我們終將找到讓AI真正"跟上時(shí)代節(jié)拍"的方法。
Q&A
Q1:OAKS評(píng)估體系是什么?
A:OAKS是由KAIST等機(jī)構(gòu)開(kāi)發(fā)的專(zhuān)門(mén)測(cè)試AI處理動(dòng)態(tài)知識(shí)能力的評(píng)估體系。它通過(guò)持續(xù)更新的信息流來(lái)測(cè)試AI是否能實(shí)時(shí)跟蹤知識(shí)變化,就像測(cè)試編輯能否準(zhǔn)確跟蹤不斷變化的新聞一樣。
Q2:為什么大語(yǔ)言模型在處理動(dòng)態(tài)知識(shí)時(shí)表現(xiàn)不佳?
A:研究發(fā)現(xiàn)AI模型存在多種問(wèn)題:有些過(guò)度敏感頻繁更新答案,有些過(guò)于固執(zhí)拒絕更新,還有些容易被無(wú)關(guān)信息分心。即使最先進(jìn)的模型準(zhǔn)確率也只有66-75%,在快速變化場(chǎng)景中更是降至33-53%。
Q3:這項(xiàng)研究對(duì)現(xiàn)實(shí)應(yīng)用有什么影響?
A:這項(xiàng)研究揭示了AI在金融分析、新聞報(bào)道、智能助手等需要實(shí)時(shí)信息更新的場(chǎng)景中的局限性。提醒我們?cè)谑褂肁I處理動(dòng)態(tài)信息時(shí)需要格外謹(jǐn)慎,不能盲目依賴(lài)其判斷。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.