網易首頁 > 網易號 > 正文申請入駐

心智推理 2.0：AI 從靜態判斷邁向動態認知

2026-03-25 16:11:16　來源: 人工智能學家

北京舉報

分享至

當我們談論“AI 是否具備心智理論（Theory of Mind）”時，往往會陷入一種錯覺，只要模型能解釋“他為什么這么做”，那它就算是理解了人類的心理。但現實世界遠比心理學測試題復雜得多。尤其在災害、醫療、金融這些高風險場景里，人類的信念不是靜止的，而是會隨著信息變化不斷更新、強化、沖突、甚至突然崩塌。大型語言模型雖然能給出看似合理的解釋，卻往往無法回答一個更關鍵的問題——人類的信念是如何一步步演化到當前狀態的。

這篇來自霍普金斯大學、佛羅里達大學和猶他大學的跨學科團隊的新研究成果《Learning Dynamic Belief Graphs for Theory-of-mind Reasoning》，正是試圖解決這個問題。它提出了一個新的范式，讓 AI 不再只是“猜測你現在在想什么”，而是“理解你的信念是如何隨時間變化，并最終驅動你的行為”。

一句大白話總結就是別再讓 AI 做心理測驗式的靜態推理了，讓它學會“跟蹤一個人的心路歷程”。

01人工智能的“心智理論”困境

大型語言模型在 ToM 推理上的局限其實非常明顯，只是我們平時不太愿意承認。

首先，它們的信念推斷是靜態的。給它一段描述，它就給你一個“此刻的信念判斷”，但不會記住你之前說過什么，也不會考慮信念的累積效應。人類的信念可不是一幀一幀的截圖，而是一條連續的軌跡。

它們把信念當成彼此獨立的變量，現實中，“擔心火勢蔓延”會強化“需要撤離”的信念，“相信官方信息”會抑制“聽鄰居謠言”的信念，這些都是相互作用的。但 LLM 的推理往往是“一條信念一句話”，缺乏結構化的依賴關系。

它們缺乏因果一致性。模型推斷的信念經常無法解釋行為，而行為也無法反推信念。你問它“為什么這個人撤離”，它能給你一個理由；你問它“這個人會不會撤離”，它又能給你另一個理由，但這兩個理由之間可能毫無邏輯聯系。

在高風險場景中，這些問題會被無限放大。災害響應中，人們的信念會隨著觀察變化而劇烈波動；醫療決策中，風險感知與信任關系會交織影響行動；金融危機中，恐慌情緒會在群體中傳播。如果 AI 想真正理解人類行為，它必須學會處理這些動態信念結構，而不是停留在“靜態猜測”的層面。

這項研究提出的核心問題也因此顯得格外尖銳，如何讓AI理解“人類信念是如何隨時間演化的”？

這項研究的貢獻可以說是把心理學、圖模型、能量函數、LLM 語義理解和行為科學揉成了一套新的 ToM 推理框架。它的核心創新點有四個。

最重要的是“動態信念圖”（Dynamic Belief Graph）。研究團隊把信念建模成一個隨時間演化的圖結構，信念之間可以相互強化或抑制，整個系統像一個不斷更新的認知網絡，而不是一堆孤立的判斷。

其次是“語義到勢能的投影”（Semantic-to-Potential Projection）。這一步非常巧妙，它讓 LLM 的語義embedding 不再只是“理解文本”，而是直接映射到圖模型的 unary 和 pairwise potentials。換句話說，語言模型提供語義證據，圖模型負責結構化推理，兩者終于不再各說各話。

第三個創新是“行為驅動的信念學習”（Action-conditioned ELBO）。信念不是憑空推斷的，而是必須能解釋行為；行為反過來約束信念的學習。這讓模型的信念軌跡具備了因果一致性，而不是隨口編的心理分析。

最后，研究團隊在真實的野火撤離數據上驗證了模型。不是玩具環境，不是虛構故事，而是真實的高風險場景。這讓模型的有效性更具說服力。

研究團隊來自一個典型的跨學科團隊，Ruxiao Chen（約翰斯·霍普金斯大學）、Susu Xu（約翰斯·霍普金斯大學，通訊研究團隊）、Xilei Zhao（佛羅里達大學）、Thomas J. Cova（猶他大學）、Frank A. Drews（猶他大學）。

他們橫跨系統工程、災害科學、環境社會學、心理學，是一個“研究人類在極端情境下如何思考和行動”的黃金組合。

項目地址：https://anonymous.4open.science/r/ICML_submission-6373/

02ToM推理的技術脈絡

要理解這項研究的意義，我們得先看看 ToM 推理的技術演化史。

傳統的 Machine ToM 主要依賴 Bayesian Inverse Planning，把人類行為看作“理性代理”的結果，通過反演決策過程來推斷信念和目標。

這種方法理論上非常優雅，因果結構清晰，但問題也很明顯，需要手工定義狀態空間、信念變量、轉移結構，只能在小規模、玩具環境中運行，完全無法處理真實世界的復雜語義輸入。

隨著 LLM 的出現，研究者開始嘗試讓模型直接從文本中推斷信念，代表性方法包括AutoToM、MuMToM 等。它們的優勢是語義理解能力強，不需要手工定義信念空間，能處理開放世界的自然語言輸入。但它們的缺陷也非常致命，信念是獨立的，沒有結構；信念是靜態的，沒有時間；推理完全依賴 prompt，容易漂移；信念無法解釋行為，也無法被行為反推。

為了讓模型具備“結構化的記憶”和“可解釋的推理”，研究者開始引入深度馬爾可夫模型（DMM）、能量模型（EBM）、因子圖（Factor Graph）等方法。它們各有優勢，但單獨使用都無法解決 ToM 推理的核心難題。

這項研究的創新就在于把 LLM 的語義能力、DMM 的時間結構、因子圖的依賴建模、EBM 的一致性約束融合成一個統一框架，讓 AI 終于可以從“靜態心理測驗式推理”邁向“動態認知軌跡建模”。

03問題定義——從觀察到信念，從信念到行為

如果說這項研究的目標是“讓 AI 學會理解人類的心路歷程”，那問題定義這一節就是它的“世界觀設定”。研究團隊把人類在高風險場景中的認知過程拆解成四類核心變量，它們共同構成了一個完整的認知循環，看到什么、怎么想、怎么變、最后做什么。

圖1：信念軌跡隨著高風險的觀察而演變，在閾值交叉時觸發行動。

最底層的是環境狀態 St。它代表真實世界正在發生什么，比如火勢是否逼近、是否收到官方警報、鄰居是否開始撤離。這個狀態通常是不可見的，或者說人類只能通過有限的觀察去推測它。

接下來是觀察文本 ot。這是人類在每個時間點實際看到、聽到或感受到的信息。在論文的數據集中，這些觀察來自真實的野火調查問卷，比如“看到煙霧”“收到緊急通知”“鄰居開始撤離”等。模型就是通過這些文本來理解“此刻發生了什么”。

然后是信念向量 bt，這是整個框架的靈魂。它是一個 K 維二元向量，每一維代表一個具體的心理信念，比如“我家是否處于危險”“火勢是否會蔓延”“官方信息是否可信”等。論文中 K=6，這個規模既能表達足夠豐富的心理狀態，又不會讓計算變得不可控。

最后是行為 at。這是人類在每個時間點做出的選擇，比如“繼續觀察”“準備撤離”“立即離開”。行為是信念的外顯結果，也是模型最終要預測的目標。

這四個變量構成了一個完整的生成過程，觀察影響信念，信念隨時間累積和變化，信念驅動行為，而行為又反過來揭示信念的合理性。整個系統是一個結構化的隱變量模型，信念是隱藏的、不可直接觀測的，但它必須能解釋行為，否則模型就會在訓練中被 ELBO 懲罰。

這個模型不是在“猜信念”，而是在“學習一套能解釋行為的信念動態”。這比傳統的 LLM prompt 推理要嚴謹得多，也更接近真實的人類認知。

04模型核心，動態信念圖（Dynamic Belief Graph）

如果說上一節定義了“世界觀”，這一節就是研究的“戰斗系統”。研究團隊提出的動態信念圖，是一個融合了圖模型、能量函數和 LLM 語義理解的混合結構。它既有概率圖模型的嚴謹性，又有語言模型的語義能力，是一個非常典型的“神經符號混合體”。

圖2:結構化認知軌跡ToM框架概述。這里，st表示觀察到的動作處的潛在環境狀態，ot表示代理的觀察，bt表示潛在的信念狀態，et表示LLM提取的語義嵌入。

信念作為馬爾可夫隨機場（MRF）

研究把信念向量 bt 建模為一個馬爾可夫隨機場（MRF），其能量函數寫成：

這里的 unary potential ?i 表示單個信念的傾向性，而 pairwise potential ?ij 則表示信念之間的相互作用。

為什么要建模 pairwise interaction？因為人類的信念不是獨立的。心理學研究早就告訴我們，風險感知、信任、威脅評估等信念之間存在強烈的強化或抑制關系。

例如，“看到煙霧”會強化“火勢逼近”的信念， “相信官方信息”會抑制“聽鄰居謠言”的信念， “鄰居撤離”會強化“需要行動”的信念。

如果模型不捕捉這些關系，它就無法解釋真實的人類行為。

MRF 的好處是，它能自然表達這些依賴關系，同時允許信念在每個時間點形成一個結構化的整體，而不是一堆孤立的二元變量。

語義到勢能的投影（Semantic-to-Potential Projection）

這一部分是研究最巧妙的設計之一。研究團隊沒有直接讓模型學習勢能，而是讓 LLM 來提供語義證據，再把這些證據投影到 unary 和 pairwise potentials 上。

對于每個信念 bt,i，模型會向 LLM 提兩個prompt，

一個假設上一時刻信念為真（Yes），一個假設上一時刻信念為假（No）。

LLM 會返回兩個 embedding，hYes 和hNo。然后模型根據當前觀察 ot 生成一個語義embedding ht，并通過對比方式構造 unary potential 的基礎部分：

這個對比結構非常關鍵，它避免了“語義翻轉”（sign flipping）的問題。因為在無監督學習中，如果模型把“1”當成“否定”，把“0”當成“肯定”，數學上完全等價，但語義上就亂套了。通過對比 embedding，模型能保持信念語義方向的一致性。

pairwise embedding 則是通過 LLM 對信念對 (bi,bj) 的語義理解來生成，再映射到 pairwise potential:

這讓模型能夠捕捉信念之間的強化或抑制關系，而不是靠人工指定。

信念邊緣概率的計算

由于信念是 K 維二元變量，所有可能的信念配置有 2K 種。研究中 K=6，因此總共有 64 種配置，完全可以枚舉。

信念邊緣概率的計算公式是

為什么 K=6 時可行？因為64 個配置 × 每個時間點 3 步 × 每個樣本幾十條記錄，計算量完全在可控范圍內。

如果 K=20，那就要 1,048,576 種配置，模型就炸了。研究團隊顯然是經過深思熟慮才選擇 K=6 的。

05行為模型，信念如何驅動行動？

如果說動態信念圖負責回答“人是怎么想的”，那行為模型就是回答“人為什么這么做”。這部分是研究中最“貼近現實”的地方，因為它直接把信念和行動綁在一起，讓模型必須面對一個殘酷事實，信念如果不能解釋行為，那就是錯的。

在這個框架里，每個行為都有自己的“信念條件嵌入”（belief-conditioned embedding）。這聽起來有點抽象，但其實很好理解，不同的行為受不同的信念組合影響，比如“繼續觀察”可能受“火勢不嚴重”的信念影響，而“立即撤離”則可能由“看到煙霧 + 鄰居撤離 + 官方警告”共同觸發。

為了捕捉這種差異，模型為每個行為構建一個獨立的信念 token matrix。更妙的是，LLM 會為每個信念生成兩個 embedding，一個是假設信念為真，一個是假設信念為假。然后模型根據當前信念的邊緣概率，把這兩個 embedding 混合成一個“信念條件行為 embedding”。

模型不是在問“這個行為是什么”，而是在問“如果這個人真的相信這些事情，他會怎么做”。這比傳統的分類器要聰明得多。

為了進一步捕捉信念之間的組合效應，研究團隊為每個行為都設計了一個獨立的自注意力模塊（Action-specific Self-Attention）。這一步非常關鍵，因為行為往往不是由單一信念觸發的，而是由信念之間的非線性交互決定的。

比如“看到煙霧”本身可能不會讓人撤離，但如果同時“鄰居開始撤離”，那撤離的概率就會突然飆升。自注意力機制正是用來捕捉這種“1+1>2”的心理效應。

這也是為什么研究團隊沒有使用一個統一的注意力結構，而是為每個行為單獨建模。不同的行為有不同的觸發邏輯，不能混為一談。

圖3：針對中間行動和最終疏散決策的訓練周期的行動預測準確性。

06推斷模型與訓練，ELBO如何讓信念變得“可解釋”？

動態信念圖和行為模型構成了生成模型，但生成模型本身無法直接訓練，因為信念是隱藏的、不可觀測的。為了解決這個問題，研究團隊引入了一個推斷模型（Inference Model），它在訓練時負責“猜測”信念。

推斷模型可以看到行為，這一點非常重要。因為行為是信念的外顯結果，知道行為就能更好地反推信念。生成模型不能看到行為，而推斷模型可以，這種“非對稱性”是變分推斷的經典設計。

整個訓練過程由 ELBO（Evidence Lower Bound）驅動，它包含兩個部分。

第一個部分是行為似然項。它要求信念必須能夠解釋行為。如果模型推斷的信念無法產生觀察到的行為，ELBO 就會懲罰它。這讓信念學習變得“行為一致”，而不是隨便瞎猜。

第二個部分是 KL 項，它要求推斷模型的信念分布必須與生成模型的信念先驗保持一致。換句話說，推斷模型不能“作弊”，不能為了擬合行為而生成不合理的信念。

圖4：訓練期間ELBO組件動態。動作似然項的演化以及推理后驗和信念轉移前驗之間的KL分歧。

圖 4 展示了訓練動態，KL 項在早期迅速下降，說明推斷模型和生成模型快速對齊；行為似然項穩步上升，說明信念越來越能解釋行為。這種訓練曲線非常健康，也說明模型確實在學習“合理的信念軌跡”。

07實驗與結果，模型是否真的學到了“人類信念”？

為了驗證模型的有效性，研究團隊使用了真實的野火撤離調查數據，包括 Kincade Fire 和 Marshall Fire。這些數據包含了居民在災害中的觀察、信念、行為等信息，是研究 ToM 的絕佳素材。

圖5：（a）模型預測信念與個人信念的人類評級之間的斯皮爾曼相關性。（b）成對信念結構學習的斯皮爾曼相關性。

這些場景非常適合 ToM 研究，因為它們具有三個特點，信息不完全、風險高、信念變化快。換句話說，這些場景能逼迫模型面對“真實的人類認知復雜性”。

在行為預測方面，模型在中間行為和最終撤離決策上都表現穩定，訓練集和測試集的曲線幾乎重合，說明模型沒有過擬合，泛化能力很強。

在信念預測質量方面，研究團隊使用 Spearman 相關來評估模型預測的信念與調查問卷中的自報告信念之間的關系。Spearman是一個 rank-based 指標，非常適合這種主觀評分數據，因為它不要求絕對值一致，只要求排序一致。

結果顯示，模型在大多數信念維度上都顯著優于 AutoToM 和 FLARE。這說明動態信念圖確實學到了“人類信念的排序結構”。

圖6：消融結果對信念準確性和時間動力學的影響。（a）不同消融下的Spearman相關性。（b）信念結構學習和時間一致性的全球指標。

更令人驚喜的是，模型還恢復了信念之間的 pairwise 結構。也就是說，它不僅知道“哪些信念更強”，還知道“哪些信念會一起變化”。這在心理學中被稱為“信念協變結構”，是理解人類行為的關鍵。

與 AutoToM 和 FLARE 相比，研究的方法在信念結構恢復上有明顯優勢。這說明結構化建模確實比 prompt-based 推理更可靠。

08為什么這是ToM推理的重要突破？

這項研究的意義不僅在于提出了一個新模型，更在于它重新定義了 ToM 推理的技術路線。

它讓 ToM 推理從“靜態信念”邁向“動態信念圖”。信念不再是孤立的判斷，而是一個隨時間演化的結構化系統。

它讓 ToM 推理從“LLM 直接推理”邁向“LLM + 結構化模型”。語言模型負責語義理解，圖模型負責結構化推理，兩者各司其職。

它讓 ToM 推理從“解釋行為”邁向“行為反向約束信念”。信念必須能解釋行為，行為也必須能反推信念，這讓模型具備了因果一致性。

它為未來的 ToM 研究提供了一個新的方向，不要再依賴 prompt，不要再依賴靜態推理，而是構建一個能隨時間更新、能表達信念關系、能被行為約束的認知軌跡模型。

一句話總結，這項研究不是在讓AI更像人，而是在讓AI更像一個“能理解人”的系統。（END）

參考資料：https://arxiv.org/abs/2603.20170

關于波動智能——

波動智能旨在建立一個基于人類意圖與反應的真實需求洞察及滿足的價值體系，融合人工智能與意識科學，構建覆蓋情緒識別、建模與推薦的智能引擎，自主研發面向社交、電商等場景的多模態意圖識別引擎、意圖標簽系統及意圖智能推薦算法，形成從情緒采集、意圖建模到商業轉化的完整解決方案。波動智能提出“意圖是連接人、物與內容的新型接口”，其產品廣泛應用于AI社交、個性化內容推薦、虛擬陪伴、電商體驗優化等領域。波動智能正在探索“EMO-as-a-Service”技術服務架構，賦能企業實現更高效的用戶洞察與精準情緒交互，推動從功能驅動到意圖驅動的產業范式升級。

親愛的人工智能研究者，為了確保您不會錯過*波動智能*的最新推送，請星標*波動智能*。我們傾心打造并精選每篇內容，只為為您帶來啟發和深思，希望能成為您理性思考路上的伙伴！

加入AI交流群請掃碼加微信

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.