自然·人類行為：解鎖人類語言系統(tǒng)性結(jié)構(gòu)的認(rèn)知密碼

2026-01-27 14:39:01　來源: 集智俱樂部

北京舉報

分享至

導(dǎo)語

人類語言具有獨特的系統(tǒng)性結(jié)構(gòu)，話語會拆分為有獨立意義的詞匯，這些詞匯再組合成短語。本研究表明，類自然語言的系統(tǒng)性，會在受預(yù)測信息（又稱超額熵）約束的編碼中形成。預(yù)測信息是衡量隨機過程中，過去信息對未來事件可預(yù)測程度的統(tǒng)計指標(biāo)，本質(zhì)反映過去與未來的互信息。模擬實驗發(fā)現(xiàn)，最小化預(yù)測信息的編碼，會將信息拆分為近似獨立的特征組，以系統(tǒng)、局部的方式表達(dá)，對應(yīng)語言中的詞匯與短語。跨語言語料庫研究進(jìn)一步驗證，人類語言在語音、形態(tài)、句法及詞匯語義層面，均能產(chǎn)生更低的預(yù)測信息。該研究建立了語言統(tǒng)計結(jié)構(gòu)與代數(shù)結(jié)構(gòu)的關(guān)聯(lián)，證實這類結(jié)構(gòu)是普遍認(rèn)知約束下交流過程的產(chǎn)物。

關(guān)鍵詞：預(yù)測信息（Predictive Information）、系統(tǒng)性（Systematicity）、認(rèn)知約束（Cognitive Constraints）、跨語言實證（Cross-linguistic Evidence）

趙思語丨作者

趙思怡丨審校

論文題目：Linguistic structure from a bottleneck on sequential information processing 論文鏈接：https://doi.org/10.1038/s41562-025-02336-w 發(fā)表日期：2024 年 11 月 1 日論文來源：Nature Human Behaviour

核心謎題：人類語言為何偏愛 “系統(tǒng)性”？

人類語言最顯著的特征是系統(tǒng)性（systematicity）與局部性（locality），二者共同構(gòu)成了人類語言的核心結(jié)構(gòu)內(nèi)核——所謂“系統(tǒng)性”，指語言能將完整意義拆分為獨立的基礎(chǔ)成分（如詞匯），再按固定規(guī)則組合生成新表達(dá)；所謂“局部性”，指語言形式與意義成分呈精準(zhǔn)的局部對應(yīng)關(guān)系，不會出現(xiàn)意義與形式的跨成分混亂匹配。

當(dāng)描述 “一只貓和一只狗在一起” 的場景時，英語使用者會自然地說出 “a cat with a dog”，其中 “cat” 對應(yīng)貓、“dog” 對應(yīng)狗，完美契合“局部性”的意義-形式精準(zhǔn)對應(yīng)；同時，這些詞匯按“冠詞+名詞+介詞+冠詞+名詞”的固定規(guī)則線性拼接，又體現(xiàn)了“系統(tǒng)性”的組合邏輯，最終形成邏輯清晰的表達(dá)。這種結(jié)構(gòu)模式的優(yōu)勢十分明確，能讓人類輕松理解和生成無限多的新語句，實現(xiàn)高效的創(chuàng)造性交流。

圖1. 英語與多種假設(shè)語言描述圖像的示例語句。a. 展現(xiàn)自然局部系統(tǒng)性的英語語句。b. 一種非自然系統(tǒng)性語言，其中‘gol’表示貓頭與狗頭的組合，‘nar’表示貓身與狗身的組合。c. 一種非局部但具有系統(tǒng)性的語言，其語句通過交替使用‘貓’和‘狗’的詞匯構(gòu)成。d. 一種整體性語言，其中‘vek’形式表示‘一只貓和一只狗’，且形式與意義之間不存在對應(yīng)關(guān)系。

但從邏輯上來說，語言并非必須如此。我們完全可以構(gòu)想多種 “非自然語言”：一種是 “非自然拆分” 的語言，用 “gol” 同時指代貓的頭部和狗的頭部，用 “nar” 指代貓的身體和狗的身體，表達(dá)同樣場景時會說 “A gol with a nar”；另一種是 “交錯排列” 的語言，將 “a cat”“with”“a dog” 的字母打亂交錯，形成 “waitacdahogt” 這樣難以解析的表達(dá)；還有一種是 “整體化表達(dá)” 的語言，用 “vek” 這樣一個無內(nèi)部結(jié)構(gòu)的詞匯直接指代 “一只貓和一只狗在一起”，就像霍夫曼編碼（Huffman codes）那樣追求編碼效率卻缺乏系統(tǒng)性。

但從邏輯上來說，語言并非必須遵循這種“系統(tǒng)性+局部性”的結(jié)構(gòu)。我們完全可以構(gòu)想多種 “非自然語言”：一種是 “非自然拆分” 的語言，用 “gol” 同時指代貓的頭部和狗的頭部，用 “nar” 指代貓的身體和狗的身體，打破了“局部性”的意義-形式精準(zhǔn)對應(yīng)；另一種是 “交錯排列” 的語言，將 “a cat”“with”“a dog” 的字母打亂交錯，形成 “waitacdahogt” 這樣的表達(dá)，破壞了“系統(tǒng)性”的有序組合規(guī)則；還有一種是 “整體化表達(dá)” 的語言，用 “vek” 這樣一個無內(nèi)部結(jié)構(gòu)的詞匯直接指代 “一只貓和一只狗在一起”，既無系統(tǒng)性也無局部性，就像霍夫曼編碼（Huffman codes）那樣追求編碼效率卻缺乏核心結(jié)構(gòu)特征。

這些假想語言在理論上同樣能完成交流任務(wù)，為何人類語言卻最終演化出系統(tǒng)性和局部性的結(jié)構(gòu)？這一問題不僅關(guān)乎語言本身的本質(zhì)，更涉及人類認(rèn)知與語言進(jìn)化的深層關(guān)聯(lián)。傳統(tǒng)理論認(rèn)為，語言的系統(tǒng)性源于語言學(xué)習(xí)者需要對未見過的意義進(jìn)行泛化，但這類解釋無法說明為何語言的拆分方式是 “自然” 的，也無法解釋局部性特征。而另一類理論則依賴于語言學(xué)習(xí)者的先天歸納偏置或意義的心理表征假設(shè)，缺乏跨語言、跨認(rèn)知場景的普遍解釋力。

理論基石：預(yù)測信息最小化的認(rèn)知邏輯

（一）預(yù)測信息的核心概念

為破解 “人類語言為何選擇系統(tǒng)性結(jié)構(gòu)” 這一謎題，研究團(tuán)隊引入信息論中的預(yù)測信息（Predictive Information）作為核心度量工具，該指標(biāo)又稱超額熵（excess entropy）。簡單來說，預(yù)測信息描述的是：在一段隨機符號序列中，要準(zhǔn)確預(yù)測后續(xù)內(nèi)容，需要從前面已出現(xiàn)的內(nèi)容中提取多少信息。

對應(yīng)到語言場景，它的本質(zhì)是衡量 “根據(jù)前文猜后文” 的難度：預(yù)測信息數(shù)值越低，說明語言序列的局部可預(yù)測性越強，人類理解話語、組織表達(dá)時，所需投入的認(rèn)知資源（比如記憶負(fù)荷、注意力分配、大腦加工成本）就越少；反之，預(yù)測信息越高，語言加工越費力。

這一概念的提出，源于對人類認(rèn)知局限的精準(zhǔn)洞察。研究團(tuán)隊基于三點基礎(chǔ)觀察構(gòu)建邏輯：第一，人類話語本質(zhì)是一維離散符號序列（比如構(gòu)成語言的音素、詞匯，需按順序依次呈現(xiàn)）；第二，這些符號在短時間尺度內(nèi)的可預(yù)測性，會直接影響語言理解與表達(dá)的難易程度；第三，人類大腦在預(yù)測序列內(nèi)容時，認(rèn)知資源是有限的（無法同時處理大量雜亂無章的信息）。

基于上述觀察，研究團(tuán)隊提出核心假設(shè)：人類語言的系統(tǒng)性、局部性結(jié)構(gòu)，本質(zhì)是為了最小化預(yù)測信息—— 通過將完整意義拆分為近似獨立的特征組（對應(yīng)語言中的詞匯、短語），再以有序、局部對應(yīng)的方式組合，讓語言序列更適配人類有限的認(rèn)知資源，實現(xiàn)高效加工與交流。

（二）理論推導(dǎo)：從認(rèn)知約束到語言結(jié)構(gòu)

預(yù)測信息的獨特屬性為語言結(jié)構(gòu)提供了關(guān)鍵解釋。當(dāng)預(yù)測信息較低時，符號能夠依賴附近的上下文被準(zhǔn)確預(yù)測，這意味著語言無需依賴長距離的整合信息，就能讓使用者順暢理解。為了實現(xiàn)這一目標(biāo)，語言需要將意義分解為 “近似獨立的特征”—— 因為獨立特征之間的統(tǒng)計依賴性低，表達(dá)這些特征的符號序列也更容易被局部預(yù)測。同時，這些特征需要以局部的方式組合，即相關(guān)的符號保持連續(xù)，而不是交錯分布。否則，符號之間的統(tǒng)計依賴被拉長，預(yù)測難度隨之上升。

這種邏輯自然催生了語言的系統(tǒng)性和局部性：意義被拆分為獨立成分，每個成分對應(yīng)一個詞匯（系統(tǒng)性），詞匯按順序拼接形成短語和句子（局部性），就像搭積木一樣，既保證了表達(dá)的靈活性，又降低了預(yù)測難度。而那些不遵循這種局部、系統(tǒng)組織方式的“非自然語言”，無論是非自然拆分還是交錯排列，都會破壞局部可預(yù)測性，導(dǎo)致預(yù)測信息升高，超出人類的認(rèn)知處理能力。

實證支撐：模擬實驗與跨語言驗證的雙重印證

為了驗證 “預(yù)測信息最小化塑造語言結(jié)構(gòu)” 這一假設(shè)，研究團(tuán)隊采用了 “模擬實驗” 與 “跨語言語料分析” 相結(jié)合的研究方法，從理論和現(xiàn)實兩個層面提供了堅實證據(jù)。

（一）模擬實驗：預(yù)測信息如何催生系統(tǒng)性

模擬實驗的核心思路是：構(gòu)建不同的意義集合，設(shè)計多種可能的語言編碼方式，計算每種編碼的預(yù)測信息，觀察哪種編碼方式的預(yù)測信息最低，是否與自然語言的結(jié)構(gòu)一致。

圖2.硬幣翻轉(zhuǎn)分布的語言模擬。a、兩種系統(tǒng)化表達(dá)方式：3表示完全系統(tǒng)化語言，0表示完全無歧義語言，用于表示由三次加權(quán)硬幣翻轉(zhuǎn)構(gòu)成的意義。整體語言。插圖框放大顯示低預(yù)測區(qū)域。在系統(tǒng)化語言中，每個字母對應(yīng)一個信息源的輸出結(jié)果。d、e中使用的語言及示例源，其中包含硬幣翻轉(zhuǎn)信息。在整體語言中，不存在自然的系統(tǒng)化關(guān)系，互信息I[M2:M3]≈0.18比特。e、形式與意義之間不同預(yù)測信息量。b、計算不同互信息水平下硬幣翻轉(zhuǎn)M2與源語言及a中兩種語言的預(yù)測信息。系統(tǒng)化語言具有較低的預(yù)測信息M3（參見正文）。零互信息對應(yīng)b和c。‘自然’信息。c、所有雙射映射從意義到語言的預(yù)測信息。M2和M3共同整體表達(dá)語言。‘非自然’語言對應(yīng)長度為3的二進(jìn)制字符串，用于表示a中的意義和源語言。語言共同整體表達(dá)M1和M2。按預(yù)測信息排序并按硬幣翻轉(zhuǎn)次數(shù)著色。

在第一個模擬實驗中，研究團(tuán)隊構(gòu)建了 “三次硬幣翻轉(zhuǎn)” 的意義集合，每個硬幣翻轉(zhuǎn)的結(jié)果（正面或反面）是獨立的意義特征。實驗設(shè)計了兩種編碼方式：一種是 “系統(tǒng)性語言”，每個硬幣翻轉(zhuǎn)結(jié)果對應(yīng)一個獨立的符號（如 “a” 代表正面，“b” 代表反面），語句由這些符號按順序拼接而成；另一種是 “整體化語言”，每個意義組合對應(yīng)一個無內(nèi)部結(jié)構(gòu)的符號串，不進(jìn)行特征拆分。結(jié)果顯示，系統(tǒng)性語言的預(yù)測信息顯著低于整體化語言，且在所有可能的編碼方式中，只有系統(tǒng)性語言能實現(xiàn)預(yù)測信息最小化。這一結(jié)果表明，當(dāng)意義特征獨立時，拆分特征并系統(tǒng)表達(dá)是降低預(yù)測信息的最優(yōu)選擇。

在第二個模擬實驗中，研究團(tuán)隊調(diào)整了意義特征的性質(zhì)，讓部分特征高度相關(guān)（如第二次和第三次硬幣翻轉(zhuǎn)的結(jié)果始終一致）。此時，模擬結(jié)果發(fā)生了有趣的變化：最優(yōu)編碼方式不再是完全的系統(tǒng)性拆分，而是將高度相關(guān)的特征 “整體化表達(dá)”，形成一個統(tǒng)一的 “詞匯”，而獨立特征仍保持系統(tǒng)性表達(dá)。這一發(fā)現(xiàn)恰好解釋了自然語言中 “詞素的任意性”—— 例如 “cat” 這個詞，其內(nèi)部沒有拆分，但它所指代的 “貓” 的各項特征（毛茸茸、哺乳動物、有尾巴等）高度相關(guān)，整體化表達(dá)這些相關(guān)特征能降低預(yù)測信息，而 “數(shù)量” 這一相對獨立的特征，則通過 “-s” 這樣的后綴系統(tǒng)性表達(dá)，形成 “cats”。

此外，針對局部性和層級結(jié)構(gòu)的模擬實驗也得出了一致結(jié)論。在針對 Zipf 分布意義集合的實驗中，保持詞匯連續(xù)拼接的編碼方式，預(yù)測信息顯著低于詞匯交錯排列的編碼；而在具有層級結(jié)構(gòu)的意義集合（如 “[貓 + 狗]”“[藍(lán)色 + 方形]” 這樣的嵌套特征組）中，“特征組連續(xù)嵌套” 的編碼方式（類似自然語言的句法層級）預(yù)測信息最低，進(jìn)一步印證了局部性對降低預(yù)測信息的重要作用。

（二）跨語言實證：人類語言確實具有低預(yù)測信息

模擬實驗驗證了理論邏輯的合理性，但自然語言是否真的遵循這一規(guī)律？為解答這一問題，研究團(tuán)隊分析了 61 種語言的大規(guī)模語料庫，涵蓋語音、形態(tài)、句法、詞匯語義四個層面，通過與 “非自然結(jié)構(gòu)基線” 的對比，檢驗真實語言的預(yù)測信息是否更低。

圖3.研究證實，自然語言在音系學(xué)、形態(tài)學(xué)和句法學(xué)層面具有減少預(yù)測信息的結(jié)構(gòu)特征。a. 選定語言中音系形式的預(yù)測信息計算：將實證形式與保留發(fā)音方式的隨機排列形式進(jìn)行對比。b. 名詞形態(tài)的字母級預(yù)測信息（黑色垂直線）與四個隨機基線的預(yù)測信息值對比（樣本密度為10,000；詳見正文）。P值表示基線樣本中預(yù)測信息低于實證形式的比例。c. 12種語言形容詞-名詞對的字母級預(yù)測信息與基線對比。非局部基線始終產(chǎn)生遠(yuǎn)高于實證形式的預(yù)測信息，故未予展示。

在語音層面，人類語言均存在特定的語音規(guī)則（phonotactics），即對語音組合有固定限制，例如英語中 “blick” 符合語音規(guī)則，是可能存在的詞匯，而 “bnick” 違背規(guī)則，無法成為合法詞匯。為驗證語音規(guī)則與預(yù)測信息的關(guān)聯(lián)，研究團(tuán)隊設(shè)計了對照實驗：將每種語言的詞匯語音序列打亂（僅打亂組合順序，保留單個語音的發(fā)音方式不變），以此構(gòu)建 “打亂基線”，再對比真實詞匯語音序列與打亂序列的預(yù)測信息差異。實驗結(jié)果明確顯示，61 種語言的真實詞匯語音序列，其預(yù)測信息均顯著低于對應(yīng)的打亂基線，這一統(tǒng)一結(jié)果證明，自然語言的語音規(guī)則并非隨機形成，本質(zhì)是為降低預(yù)測信息而演化存在的。

在形態(tài)層面，研究團(tuán)隊分析了匈牙利語、阿拉伯語、芬蘭語、拉丁語和土耳其語五種語言的名詞變格系統(tǒng)。這些語言的名詞通過后綴變化表達(dá) “數(shù)”“格” 等語法特征，具有明顯的系統(tǒng)性。研究團(tuán)隊構(gòu)建了三種基線：一是 “非局部基線”，打亂后綴的字母順序；二是 “非自然基線”，打亂形態(tài)與語法特征的對應(yīng)關(guān)系；三是 “長度匹配非自然基線”，在保持后綴長度不變的前提下打亂形態(tài) - 特征對應(yīng)。結(jié)果顯示，五種語言的真實形態(tài)系統(tǒng)，預(yù)測信息均顯著低于所有基線，即使是阿拉伯語中存在的非連續(xù)形態(tài)（如 “broken plurals”），其預(yù)測信息依然低于基線，說明這種有限的非連續(xù)結(jié)構(gòu)仍符合預(yù)測信息最小化原則。

在句法層面，研究團(tuán)隊分析了 12 種語言的形容詞 - 名詞組合（如英語 “blue square”）。通過構(gòu)建 “詞匯交錯” 和 “形態(tài) - 意義錯配” 的基線，發(fā)現(xiàn)真實語言的形容詞 - 名詞組合預(yù)測信息更低。而在名詞短語語序的研究中，團(tuán)隊分析了不同語言中限定詞（D）、數(shù)詞（N）、形容詞（A）和名詞（n）的排列順序，發(fā)現(xiàn)跨語言中更常見的語序（如英語 D-N-A-n、西班牙語 D-N-n-A），其預(yù)測信息顯著低于罕見語序，說明語序的跨語言分布也受到預(yù)測信息最小化的約束。

在詞匯語義層面，研究團(tuán)隊利用蘭卡斯特感覺運動規(guī)范（Lancaster Sensorimotor Norms）分析了英語名詞的語義特征。結(jié)果顯示，名詞的核心語義特征（如 “是否毛茸茸”“是否為哺乳動物”）之間高度相關(guān)，而 “數(shù)量” 特征與這些核心特征的相關(guān)性較低。這恰好符合模擬實驗的結(jié)論：相關(guān)特征整體化表達(dá)于一個詞匯中，獨立特征則系統(tǒng)性表達(dá)，從而實現(xiàn)預(yù)測信息最小化。同時，研究還發(fā)現(xiàn)，同一詞匯內(nèi)的語義特征相關(guān)性顯著高于不同詞匯間的特征相關(guān)性，進(jìn)一步印證了 “相關(guān)特征聚類表達(dá)” 的原則。

跨學(xué)科啟示：語言、認(rèn)知與人工智能的交匯

這項研究的意義遠(yuǎn)超出語言學(xué)領(lǐng)域，它建立了語言結(jié)構(gòu)與信息論、認(rèn)知科學(xué)、機器學(xué)習(xí)、神經(jīng)科學(xué)等多個學(xué)科的橋梁，為相關(guān)領(lǐng)域提供了全新的研究視角。

在認(rèn)知科學(xué)層面，研究揭示了人類語言與認(rèn)知約束（Cognitive Constraints）之間的深層關(guān)聯(lián)。長期以來，研究者們知道人類認(rèn)知資源有限，但如何具體影響語言結(jié)構(gòu)尚不明確。該研究表明，預(yù)測信息最小化是連接認(rèn)知約束與語言結(jié)構(gòu)的關(guān)鍵紐帶，語言的系統(tǒng)性、局部性等核心特征，本質(zhì)上是人類為了適配有限認(rèn)知資源而進(jìn)化出的最優(yōu)解。這一發(fā)現(xiàn)也為理解 “語言習(xí)得” 提供了新視角：兒童學(xué)習(xí)語言時，可能會本能地偏好預(yù)測信息更低的系統(tǒng)性結(jié)構(gòu)（Systematic Structure），從而加速語言習(xí)得過程。

在機器學(xué)習(xí)領(lǐng)域，研究為自然語言處理提供了理論啟示。大型語言模型的核心任務(wù)是根據(jù)前文預(yù)測下一個詞，而這項研究表明，自然語言的結(jié)構(gòu)本身就是為了降低這種預(yù)測難度而設(shè)計的 —— 這正是大型語言模型能夠取得成功的重要原因。同時，研究中 “預(yù)測信息最小化” 的原則，也為構(gòu)建更高效的語言模型提供了參考：未來的模型設(shè)計可以更注重語言的局部可預(yù)測性和特征獨立性，從而提升模型的效率和可解釋性。此外，研究還解釋了為何大型語言模型難以學(xué)習(xí) “非自然語言”—— 這類語言的預(yù)測信息過高，超出了模型的學(xué)習(xí)能力。

在神經(jīng)科學(xué)領(lǐng)域，研究與大腦的語言加工機制相呼應(yīng)。神經(jīng)科學(xué)研究發(fā)現(xiàn)，大腦在處理語言時，會對可預(yù)測的詞匯產(chǎn)生更高效的神經(jīng)響應(yīng)。而這項研究表明，自然語言的低預(yù)測信息特征，恰好與大腦的這種加工偏好相適配。預(yù)測信息最小化意味著語言序列的局部可預(yù)測性更高，這能減少大腦加工語言時的認(rèn)知負(fù)荷，提升交流效率。這一發(fā)現(xiàn)為理解 “語言與大腦的協(xié)同進(jìn)化” 提供了重要線索。

局限與未來：未竟的探索之路

盡管這項研究取得了突破性進(jìn)展，但仍存在一些局限，為未來的研究指明了方向。首先，研究主要關(guān)注單個語句內(nèi)部的預(yù)測信息，而語言交流往往是多語句的語篇層面。未來的研究可以探究語篇層面的預(yù)測信息是否同樣受到最小化約束，以及如何解釋語篇的層級結(jié)構(gòu)（如話題組織）。其次，研究假設(shè)語言是意義與形式的一一對應(yīng)映射，但自然語言中存在大量歧義現(xiàn)象（如多義詞、歧義句）。歧義是否會影響預(yù)測信息？語言如何在歧義與預(yù)測信息最小化之間權(quán)衡？這些問題值得進(jìn)一步探索。

此外，自然語言中也存在一些看似違背局部性的結(jié)構(gòu)，例如長距離指代（如 “The girl who met the boy yesterday likes music” 中，“who” 指代 “the girl”，二者相距較遠(yuǎn)）。這些結(jié)構(gòu)為何會存在？它們對預(yù)測信息有何影響？是否存在其他認(rèn)知約束與預(yù)測信息最小化相互作用？這些問題需要更深入的實證研究來解答。

最后，研究尚未探討語言進(jìn)化過程中，預(yù)測信息最小化是如何具體發(fā)揮作用的。是通過個體交流中的效率壓力，還是通過語言學(xué)習(xí)者的認(rèn)知偏好，抑或是群體層面的文化進(jìn)化？厘清這些機制，將有助于更全面地理解語言結(jié)構(gòu)的起源與演變。

大語言模型與多智能體系統(tǒng)讀書會

集智俱樂部聯(lián)合西湖大學(xué)工學(xué)院特聘研究員趙世鈺、浙江大學(xué)教授任沁源、鵬城實驗室高級工程師崔金強，共同發(fā)起，探究大語言模型給機器人領(lǐng)域帶來的新思想新價值。讀書會已完結(jié)，現(xiàn)在報名可加入社群并解鎖回放視頻權(quán)限。

詳情請見：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.