![]()
導(dǎo)語
人類語言具有獨特的系統(tǒng)性結(jié)構(gòu),話語會拆分為有獨立意義的詞匯,這些詞匯再組合成短語。本研究表明,類自然語言的系統(tǒng)性,會在受預(yù)測信息(又稱超額熵)約束的編碼中形成。預(yù)測信息是衡量隨機過程中,過去信息對未來事件可預(yù)測程度的統(tǒng)計指標(biāo),本質(zhì)反映過去與未來的互信息。模擬實驗發(fā)現(xiàn),最小化預(yù)測信息的編碼,會將信息拆分為近似獨立的特征組,以系統(tǒng)、局部的方式表達(dá),對應(yīng)語言中的詞匯與短語。跨語言語料庫研究進(jìn)一步驗證,人類語言在語音、形態(tài)、句法及詞匯語義層面,均能產(chǎn)生更低的預(yù)測信息。該研究建立了語言統(tǒng)計結(jié)構(gòu)與代數(shù)結(jié)構(gòu)的關(guān)聯(lián),證實這類結(jié)構(gòu)是普遍認(rèn)知約束下交流過程的產(chǎn)物。
關(guān)鍵詞:預(yù)測信息(Predictive Information)、系統(tǒng)性(Systematicity)、認(rèn)知約束(Cognitive Constraints)、跨語言實證(Cross-linguistic Evidence)
趙思語丨作者
趙思怡丨審校
![]()
論文題目:Linguistic structure from a bottleneck on sequential information processing 論文鏈接:https://doi.org/10.1038/s41562-025-02336-w 發(fā)表日期:2024 年 11 月 1 日 論文來源:Nature Human Behaviour
核心謎題:人類語言為何偏愛 “系統(tǒng)性”?
人類語言最顯著的特征是系統(tǒng)性(systematicity)與局部性(locality),二者共同構(gòu)成了人類語言的核心結(jié)構(gòu)內(nèi)核——所謂“系統(tǒng)性”,指語言能將完整意義拆分為獨立的基礎(chǔ)成分(如詞匯),再按固定規(guī)則組合生成新表達(dá);所謂“局部性”,指語言形式與意義成分呈精準(zhǔn)的局部對應(yīng)關(guān)系,不會出現(xiàn)意義與形式的跨成分混亂匹配。
當(dāng)描述 “一只貓和一只狗在一起” 的場景時,英語使用者會自然地說出 “a cat with a dog”,其中 “cat” 對應(yīng)貓、“dog” 對應(yīng)狗,完美契合“局部性”的意義-形式精準(zhǔn)對應(yīng);同時,這些詞匯按“冠詞+名詞+介詞+冠詞+名詞”的固定規(guī)則線性拼接,又體現(xiàn)了“系統(tǒng)性”的組合邏輯,最終形成邏輯清晰的表達(dá)。這種結(jié)構(gòu)模式的優(yōu)勢十分明確,能讓人類輕松理解和生成無限多的新語句,實現(xiàn)高效的創(chuàng)造性交流。
![]()
圖1. 英語與多種假設(shè)語言描述圖像的示例語句。a. 展現(xiàn)自然局部系統(tǒng)性的英語語句。b. 一種非自然系統(tǒng)性語言,其中‘gol’表示貓頭與狗頭的組合,‘nar’表示貓身與狗身的組合。c. 一種非局部但具有系統(tǒng)性的語言,其語句通過交替使用‘貓’和‘狗’的詞匯構(gòu)成。d. 一種整體性語言,其中‘vek’形式表示‘一只貓和一只狗’,且形式與意義之間不存在對應(yīng)關(guān)系。
但從邏輯上來說,語言并非必須如此。我們完全可以構(gòu)想多種 “非自然語言”:一種是 “非自然拆分” 的語言,用 “gol” 同時指代貓的頭部和狗的頭部,用 “nar” 指代貓的身體和狗的身體,表達(dá)同樣場景時會說 “A gol with a nar”;另一種是 “交錯排列” 的語言,將 “a cat”“with”“a dog” 的字母打亂交錯,形成 “waitacdahogt” 這樣難以解析的表達(dá);還有一種是 “整體化表達(dá)” 的語言,用 “vek” 這樣一個無內(nèi)部結(jié)構(gòu)的詞匯直接指代 “一只貓和一只狗在一起”,就像霍夫曼編碼(Huffman codes)那樣追求編碼效率卻缺乏系統(tǒng)性。
但從邏輯上來說,語言并非必須遵循這種“系統(tǒng)性+局部性”的結(jié)構(gòu)。我們完全可以構(gòu)想多種 “非自然語言”:一種是 “非自然拆分” 的語言,用 “gol” 同時指代貓的頭部和狗的頭部,用 “nar” 指代貓的身體和狗的身體,打破了“局部性”的意義-形式精準(zhǔn)對應(yīng);另一種是 “交錯排列” 的語言,將 “a cat”“with”“a dog” 的字母打亂交錯,形成 “waitacdahogt” 這樣的表達(dá),破壞了“系統(tǒng)性”的有序組合規(guī)則;還有一種是 “整體化表達(dá)” 的語言,用 “vek” 這樣一個無內(nèi)部結(jié)構(gòu)的詞匯直接指代 “一只貓和一只狗在一起”,既無系統(tǒng)性也無局部性,就像霍夫曼編碼(Huffman codes)那樣追求編碼效率卻缺乏核心結(jié)構(gòu)特征。
這些假想語言在理論上同樣能完成交流任務(wù),為何人類語言卻最終演化出系統(tǒng)性和局部性的結(jié)構(gòu)?這一問題不僅關(guān)乎語言本身的本質(zhì),更涉及人類認(rèn)知與語言進(jìn)化的深層關(guān)聯(lián)。傳統(tǒng)理論認(rèn)為,語言的系統(tǒng)性源于語言學(xué)習(xí)者需要對未見過的意義進(jìn)行泛化,但這類解釋無法說明為何語言的拆分方式是 “自然” 的,也無法解釋局部性特征。而另一類理論則依賴于語言學(xué)習(xí)者的先天歸納偏置或意義的心理表征假設(shè),缺乏跨語言、跨認(rèn)知場景的普遍解釋力。
理論基石:預(yù)測信息最小化的認(rèn)知邏輯
(一)預(yù)測信息的核心概念
為破解 “人類語言為何選擇系統(tǒng)性結(jié)構(gòu)” 這一謎題,研究團(tuán)隊引入信息論中的預(yù)測信息(Predictive Information)作為核心度量工具,該指標(biāo)又稱超額熵(excess entropy)。簡單來說,預(yù)測信息描述的是:在一段隨機符號序列中,要準(zhǔn)確預(yù)測后續(xù)內(nèi)容,需要從前面已出現(xiàn)的內(nèi)容中提取多少信息。
對應(yīng)到語言場景,它的本質(zhì)是衡量 “根據(jù)前文猜后文” 的難度:預(yù)測信息數(shù)值越低,說明語言序列的局部可預(yù)測性越強,人類理解話語、組織表達(dá)時,所需投入的認(rèn)知資源(比如記憶負(fù)荷、注意力分配、大腦加工成本)就越少;反之,預(yù)測信息越高,語言加工越費力。
這一概念的提出,源于對人類認(rèn)知局限的精準(zhǔn)洞察。研究團(tuán)隊基于三點基礎(chǔ)觀察構(gòu)建邏輯:第一,人類話語本質(zhì)是一維離散符號序列(比如構(gòu)成語言的音素、詞匯,需按順序依次呈現(xiàn));第二,這些符號在短時間尺度內(nèi)的可預(yù)測性,會直接影響語言理解與表達(dá)的難易程度;第三,人類大腦在預(yù)測序列內(nèi)容時,認(rèn)知資源是有限的(無法同時處理大量雜亂無章的信息)。
基于上述觀察,研究團(tuán)隊提出核心假設(shè):人類語言的系統(tǒng)性、局部性結(jié)構(gòu),本質(zhì)是為了最小化預(yù)測信息—— 通過將完整意義拆分為近似獨立的特征組(對應(yīng)語言中的詞匯、短語),再以有序、局部對應(yīng)的方式組合,讓語言序列更適配人類有限的認(rèn)知資源,實現(xiàn)高效加工與交流。
(二)理論推導(dǎo):從認(rèn)知約束到語言結(jié)構(gòu)
預(yù)測信息的獨特屬性為語言結(jié)構(gòu)提供了關(guān)鍵解釋。當(dāng)預(yù)測信息較低時,符號能夠依賴附近的上下文被準(zhǔn)確預(yù)測,這意味著語言無需依賴長距離的整合信息,就能讓使用者順暢理解。為了實現(xiàn)這一目標(biāo),語言需要將意義分解為 “近似獨立的特征”—— 因為獨立特征之間的統(tǒng)計依賴性低,表達(dá)這些特征的符號序列也更容易被局部預(yù)測。同時,這些特征需要以局部的方式組合,即相關(guān)的符號保持連續(xù),而不是交錯分布。否則,符號之間的統(tǒng)計依賴被拉長,預(yù)測難度隨之上升。
這種邏輯自然催生了語言的系統(tǒng)性和局部性:意義被拆分為獨立成分,每個成分對應(yīng)一個詞匯(系統(tǒng)性),詞匯按順序拼接形成短語和句子(局部性),就像搭積木一樣,既保證了表達(dá)的靈活性,又降低了預(yù)測難度。而那些不遵循這種局部、系統(tǒng)組織方式的“非自然語言”,無論是非自然拆分還是交錯排列,都會破壞局部可預(yù)測性,導(dǎo)致預(yù)測信息升高,超出人類的認(rèn)知處理能力。
實證支撐:模擬實驗與跨語言驗證的雙重印證
為了驗證 “預(yù)測信息最小化塑造語言結(jié)構(gòu)” 這一假設(shè),研究團(tuán)隊采用了 “模擬實驗” 與 “跨語言語料分析” 相結(jié)合的研究方法,從理論和現(xiàn)實兩個層面提供了堅實證據(jù)。
(一)模擬實驗:預(yù)測信息如何催生系統(tǒng)性
模擬實驗的核心思路是:構(gòu)建不同的意義集合,設(shè)計多種可能的語言編碼方式,計算每種編碼的預(yù)測信息,觀察哪種編碼方式的預(yù)測信息最低,是否與自然語言的結(jié)構(gòu)一致。
![]()
圖2.硬幣翻轉(zhuǎn)分布的語言模擬。a、兩種系統(tǒng)化表達(dá)方式:3表示完全系統(tǒng)化語言,0表示完全無歧義語言,用于表示由三次加權(quán)硬幣翻轉(zhuǎn)構(gòu)成的意義。整體語言。插圖框放大顯示低預(yù)測區(qū)域。在系統(tǒng)化語言中,每個字母對應(yīng)一個信息源的輸出結(jié)果。d、e中使用的語言及示例源,其中包含硬幣翻轉(zhuǎn)信息。在整體語言中,不存在自然的系統(tǒng)化關(guān)系,互信息I[M2:M3]≈0.18比特。e、形式與意義之間不同預(yù)測信息量。b、計算不同互信息水平下硬幣翻轉(zhuǎn)M2與源語言及a中兩種語言的預(yù)測信息。系統(tǒng)化語言具有較低的預(yù)測信息M3(參見正文)。零互信息對應(yīng)b和c。‘自然’信息。c、所有雙射映射從意義到語言的預(yù)測信息。M2和M3共同整體表達(dá)語言。‘非自然’語言對應(yīng)長度為3的二進(jìn)制字符串,用于表示a中的意義和源語言。語言共同整體表達(dá)M1和M2。按預(yù)測信息排序并按硬幣翻轉(zhuǎn)次數(shù)著色。
在第一個模擬實驗中,研究團(tuán)隊構(gòu)建了 “三次硬幣翻轉(zhuǎn)” 的意義集合,每個硬幣翻轉(zhuǎn)的結(jié)果(正面或反面)是獨立的意義特征。實驗設(shè)計了兩種編碼方式:一種是 “系統(tǒng)性語言”,每個硬幣翻轉(zhuǎn)結(jié)果對應(yīng)一個獨立的符號(如 “a” 代表正面,“b” 代表反面),語句由這些符號按順序拼接而成;另一種是 “整體化語言”,每個意義組合對應(yīng)一個無內(nèi)部結(jié)構(gòu)的符號串,不進(jìn)行特征拆分。結(jié)果顯示,系統(tǒng)性語言的預(yù)測信息顯著低于整體化語言,且在所有可能的編碼方式中,只有系統(tǒng)性語言能實現(xiàn)預(yù)測信息最小化。這一結(jié)果表明,當(dāng)意義特征獨立時,拆分特征并系統(tǒng)表達(dá)是降低預(yù)測信息的最優(yōu)選擇。
在第二個模擬實驗中,研究團(tuán)隊調(diào)整了意義特征的性質(zhì),讓部分特征高度相關(guān)(如第二次和第三次硬幣翻轉(zhuǎn)的結(jié)果始終一致)。此時,模擬結(jié)果發(fā)生了有趣的變化:最優(yōu)編碼方式不再是完全的系統(tǒng)性拆分,而是將高度相關(guān)的特征 “整體化表達(dá)”,形成一個統(tǒng)一的 “詞匯”,而獨立特征仍保持系統(tǒng)性表達(dá)。這一發(fā)現(xiàn)恰好解釋了自然語言中 “詞素的任意性”—— 例如 “cat” 這個詞,其內(nèi)部沒有拆分,但它所指代的 “貓” 的各項特征(毛茸茸、哺乳動物、有尾巴等)高度相關(guān),整體化表達(dá)這些相關(guān)特征能降低預(yù)測信息,而 “數(shù)量” 這一相對獨立的特征,則通過 “-s” 這樣的后綴系統(tǒng)性表達(dá),形成 “cats”。
此外,針對局部性和層級結(jié)構(gòu)的模擬實驗也得出了一致結(jié)論。在針對 Zipf 分布意義集合的實驗中,保持詞匯連續(xù)拼接的編碼方式,預(yù)測信息顯著低于詞匯交錯排列的編碼;而在具有層級結(jié)構(gòu)的意義集合(如 “[貓 + 狗]”“[藍(lán)色 + 方形]” 這樣的嵌套特征組)中,“特征組連續(xù)嵌套” 的編碼方式(類似自然語言的句法層級)預(yù)測信息最低,進(jìn)一步印證了局部性對降低預(yù)測信息的重要作用。
(二)跨語言實證:人類語言確實具有低預(yù)測信息
模擬實驗驗證了理論邏輯的合理性,但自然語言是否真的遵循這一規(guī)律?為解答這一問題,研究團(tuán)隊分析了 61 種語言的大規(guī)模語料庫,涵蓋語音、形態(tài)、句法、詞匯語義四個層面,通過與 “非自然結(jié)構(gòu)基線” 的對比,檢驗真實語言的預(yù)測信息是否更低。
![]()
圖3.研究證實,自然語言在音系學(xué)、形態(tài)學(xué)和句法學(xué)層面具有減少預(yù)測信息的結(jié)構(gòu)特征。a. 選定語言中音系形式的預(yù)測信息計算:將實證形式與保留發(fā)音方式的隨機排列形式進(jìn)行對比。b. 名詞形態(tài)的字母級預(yù)測信息(黑色垂直線)與四個隨機基線的預(yù)測信息值對比(樣本密度為10,000;詳見正文)。P值表示基線樣本中預(yù)測信息低于實證形式的比例。c. 12種語言形容詞-名詞對的字母級預(yù)測信息與基線對比。非局部基線始終產(chǎn)生遠(yuǎn)高于實證形式的預(yù)測信息,故未予展示。
在語音層面,人類語言均存在特定的語音規(guī)則(phonotactics),即對語音組合有固定限制,例如英語中 “blick” 符合語音規(guī)則,是可能存在的詞匯,而 “bnick” 違背規(guī)則,無法成為合法詞匯。為驗證語音規(guī)則與預(yù)測信息的關(guān)聯(lián),研究團(tuán)隊設(shè)計了對照實驗:將每種語言的詞匯語音序列打亂(僅打亂組合順序,保留單個語音的發(fā)音方式不變),以此構(gòu)建 “打亂基線”,再對比真實詞匯語音序列與打亂序列的預(yù)測信息差異。實驗結(jié)果明確顯示,61 種語言的真實詞匯語音序列,其預(yù)測信息均顯著低于對應(yīng)的打亂基線,這一統(tǒng)一結(jié)果證明,自然語言的語音規(guī)則并非隨機形成,本質(zhì)是為降低預(yù)測信息而演化存在的。
在形態(tài)層面,研究團(tuán)隊分析了匈牙利語、阿拉伯語、芬蘭語、拉丁語和土耳其語五種語言的名詞變格系統(tǒng)。這些語言的名詞通過后綴變化表達(dá) “數(shù)”“格” 等語法特征,具有明顯的系統(tǒng)性。研究團(tuán)隊構(gòu)建了三種基線:一是 “非局部基線”,打亂后綴的字母順序;二是 “非自然基線”,打亂形態(tài)與語法特征的對應(yīng)關(guān)系;三是 “長度匹配非自然基線”,在保持后綴長度不變的前提下打亂形態(tài) - 特征對應(yīng)。結(jié)果顯示,五種語言的真實形態(tài)系統(tǒng),預(yù)測信息均顯著低于所有基線,即使是阿拉伯語中存在的非連續(xù)形態(tài)(如 “broken plurals”),其預(yù)測信息依然低于基線,說明這種有限的非連續(xù)結(jié)構(gòu)仍符合預(yù)測信息最小化原則。
在句法層面,研究團(tuán)隊分析了 12 種語言的形容詞 - 名詞組合(如英語 “blue square”)。通過構(gòu)建 “詞匯交錯” 和 “形態(tài) - 意義錯配” 的基線,發(fā)現(xiàn)真實語言的形容詞 - 名詞組合預(yù)測信息更低。而在名詞短語語序的研究中,團(tuán)隊分析了不同語言中限定詞(D)、數(shù)詞(N)、形容詞(A)和名詞(n)的排列順序,發(fā)現(xiàn)跨語言中更常見的語序(如英語 D-N-A-n、西班牙語 D-N-n-A),其預(yù)測信息顯著低于罕見語序,說明語序的跨語言分布也受到預(yù)測信息最小化的約束。
在詞匯語義層面,研究團(tuán)隊利用蘭卡斯特感覺運動規(guī)范(Lancaster Sensorimotor Norms)分析了英語名詞的語義特征。結(jié)果顯示,名詞的核心語義特征(如 “是否毛茸茸”“是否為哺乳動物”)之間高度相關(guān),而 “數(shù)量” 特征與這些核心特征的相關(guān)性較低。這恰好符合模擬實驗的結(jié)論:相關(guān)特征整體化表達(dá)于一個詞匯中,獨立特征則系統(tǒng)性表達(dá),從而實現(xiàn)預(yù)測信息最小化。同時,研究還發(fā)現(xiàn),同一詞匯內(nèi)的語義特征相關(guān)性顯著高于不同詞匯間的特征相關(guān)性,進(jìn)一步印證了 “相關(guān)特征聚類表達(dá)” 的原則。
跨學(xué)科啟示:語言、認(rèn)知與人工智能的交匯
這項研究的意義遠(yuǎn)超出語言學(xué)領(lǐng)域,它建立了語言結(jié)構(gòu)與信息論、認(rèn)知科學(xué)、機器學(xué)習(xí)、神經(jīng)科學(xué)等多個學(xué)科的橋梁,為相關(guān)領(lǐng)域提供了全新的研究視角。
在認(rèn)知科學(xué)層面,研究揭示了人類語言與認(rèn)知約束(Cognitive Constraints)之間的深層關(guān)聯(lián)。長期以來,研究者們知道人類認(rèn)知資源有限,但如何具體影響語言結(jié)構(gòu)尚不明確。該研究表明,預(yù)測信息最小化是連接認(rèn)知約束與語言結(jié)構(gòu)的關(guān)鍵紐帶,語言的系統(tǒng)性、局部性等核心特征,本質(zhì)上是人類為了適配有限認(rèn)知資源而進(jìn)化出的最優(yōu)解。這一發(fā)現(xiàn)也為理解 “語言習(xí)得” 提供了新視角:兒童學(xué)習(xí)語言時,可能會本能地偏好預(yù)測信息更低的系統(tǒng)性結(jié)構(gòu)(Systematic Structure),從而加速語言習(xí)得過程。
在機器學(xué)習(xí)領(lǐng)域,研究為自然語言處理提供了理論啟示。大型語言模型的核心任務(wù)是根據(jù)前文預(yù)測下一個詞,而這項研究表明,自然語言的結(jié)構(gòu)本身就是為了降低這種預(yù)測難度而設(shè)計的 —— 這正是大型語言模型能夠取得成功的重要原因。同時,研究中 “預(yù)測信息最小化” 的原則,也為構(gòu)建更高效的語言模型提供了參考:未來的模型設(shè)計可以更注重語言的局部可預(yù)測性和特征獨立性,從而提升模型的效率和可解釋性。此外,研究還解釋了為何大型語言模型難以學(xué)習(xí) “非自然語言”—— 這類語言的預(yù)測信息過高,超出了模型的學(xué)習(xí)能力。
在神經(jīng)科學(xué)領(lǐng)域,研究與大腦的語言加工機制相呼應(yīng)。神經(jīng)科學(xué)研究發(fā)現(xiàn),大腦在處理語言時,會對可預(yù)測的詞匯產(chǎn)生更高效的神經(jīng)響應(yīng)。而這項研究表明,自然語言的低預(yù)測信息特征,恰好與大腦的這種加工偏好相適配。預(yù)測信息最小化意味著語言序列的局部可預(yù)測性更高,這能減少大腦加工語言時的認(rèn)知負(fù)荷,提升交流效率。這一發(fā)現(xiàn)為理解 “語言與大腦的協(xié)同進(jìn)化” 提供了重要線索。
局限與未來:未竟的探索之路
盡管這項研究取得了突破性進(jìn)展,但仍存在一些局限,為未來的研究指明了方向。首先,研究主要關(guān)注單個語句內(nèi)部的預(yù)測信息,而語言交流往往是多語句的語篇層面。未來的研究可以探究語篇層面的預(yù)測信息是否同樣受到最小化約束,以及如何解釋語篇的層級結(jié)構(gòu)(如話題組織)。其次,研究假設(shè)語言是意義與形式的一一對應(yīng)映射,但自然語言中存在大量歧義現(xiàn)象(如多義詞、歧義句)。歧義是否會影響預(yù)測信息?語言如何在歧義與預(yù)測信息最小化之間權(quán)衡?這些問題值得進(jìn)一步探索。
此外,自然語言中也存在一些看似違背局部性的結(jié)構(gòu),例如長距離指代(如 “The girl who met the boy yesterday likes music” 中,“who” 指代 “the girl”,二者相距較遠(yuǎn))。這些結(jié)構(gòu)為何會存在?它們對預(yù)測信息有何影響?是否存在其他認(rèn)知約束與預(yù)測信息最小化相互作用?這些問題需要更深入的實證研究來解答。
最后,研究尚未探討語言進(jìn)化過程中,預(yù)測信息最小化是如何具體發(fā)揮作用的。是通過個體交流中的效率壓力,還是通過語言學(xué)習(xí)者的認(rèn)知偏好,抑或是群體層面的文化進(jìn)化?厘清這些機制,將有助于更全面地理解語言結(jié)構(gòu)的起源與演變。
大語言模型與多智能體系統(tǒng)讀書會
集智俱樂部聯(lián)合西湖大學(xué)工學(xué)院特聘研究員趙世鈺、浙江大學(xué)教授任沁源、鵬城實驗室高級工程師崔金強,共同發(fā)起,探究大語言模型給機器人領(lǐng)域帶來的新思想新價值。讀書會已完結(jié),現(xiàn)在報名可加入社群并解鎖回放視頻權(quán)限。
詳情請見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.