我們把弗洛伊德請出了心理學神殿，現(xiàn)在，是時候請他回來拯救AI了

2026-01-30 07:58:07　來源: 追問Nextquestion

上海舉報

分享至

兩年前，GPT-3剛剛展現(xiàn)出驚人的能力，心理學界也正熱衷于將過去一個世紀積累的心理學實驗范式，遷移到這些硅基模型上，測試它們的理性決策能力、社會認知水平、人格特質(zhì)傾向。那時的主流觀點是樂觀的：我們只需要借用成熟的心理學研究方法，就能逐步揭開大語言模型的認知奧秘。

：這種做法可能正在宣告“心理學的死亡”。我們擔憂三個幽靈將長期盤旋在該領域上空，即行為主義的陰魂不散、相關性與因果性的混淆，以及隱性知識的不可言說之謎。

如今，兩年過去了。大語言模型已發(fā)展到了新的階段。GPT-5、Claude 4.5等模型展現(xiàn)出了更加復雜的能力，機械可解釋性研究也取得了顯著進展。然而，當我們以為終于可以窺探這些"黑箱"內(nèi)部時，卻發(fā)現(xiàn)最初的那些根本性問題不僅沒有解決，反而變得更加尖銳。

于是，我們將相關觀點整理成了"行為主義的幽靈"一文，發(fā)表在了Cognitive Systems Research上，旨在證明，盡管我們手中的測量工具已經(jīng)進步，但我們的思維方式，依然沒有走出20世紀初行為主義的籠子。

?Li, Zewei, Yijin Wang, and Qi Wu. "The ghost of behaviorism: critical reflections on methodological limitations in the research of large language models psychology." Cognitive Systems Research (2026): 101445.

方法的貧困與理論的輪回

我們認為，新興的人工智能心理學和機器心理學領域，正在重演人類心理學早期的悲劇。就像百年前的行為主義者拒絕談論“意識”，只盯著“刺激-反應”的黑箱一樣，今天的大語言模型研究者在面對萬億參數(shù)的巨型模型時，再次退縮到了“輸入提示詞”與“輸出響應”的港灣。

這種方法論上的退步更多源于恐懼。當一個智能體的內(nèi)部表征空間維度遠超人類直覺的極限時，承認“我們只能觀察行為”似乎成了唯一的選擇。于是，我們陷入了一種循環(huán)：產(chǎn)出了大量關于大語言模型行為特征的實證研究，記錄了模型在數(shù)千種任務上的分數(shù)，發(fā)現(xiàn)了無數(shù)有趣的涌現(xiàn)模式。但一旦觸及那個最本質(zhì)的問題：它真的“理解”嗎？還是說，這僅僅是一場規(guī)模宏大的統(tǒng)計學魔術(shù)？我們發(fā)現(xiàn)自己依然站在原地，兩手空空。

但問題的嚴重性不僅在于方法的局限，更在于這種局限所帶來的理論貧困。兩年前我們提出的三個"幽靈"，如今不僅沒有散去，反而變得更加具象化。

首先是行為主義的幽靈，它讓我們喪失了定義“理解”的能力。當 AI 能完美通過圖靈測試，甚至寫出比人類更深刻的哲學分析時，我們該如何判斷它是真正理解了問題，還是僅僅在進行精密的模式匹配？這個問題之所以無解，是因為我們?nèi)狈σ粋€超越行為表象的理論錨點。

其次是相關性的幽靈。大語言模型的本質(zhì)是“下一個詞的預測機”，是海量文本統(tǒng)計相關性的集大成者。如果這種基于相關性的學習機制，能涌現(xiàn)出邏輯與推理，那么通過反光鏡審視人類自己，我們引以為傲的“因果推理”是否也只是大腦神經(jīng)元之間復雜相關性的某種錯覺？這個問題直擊人類認知的本質(zhì)，迫使我們重新審視自己對"因果理解"的自信。

最后是隱性知識的難題。兩年前我們就指出，大語言模型能否掌握那些不能明確表達在文字中的知識，比如物理直覺、社會常識、文化語境，是檢驗其"真實理解"的關鍵。但隨著研究的深入，這個問題變得更加微妙。一方面，研究表明大語言模型確實能夠在某種程度上捕捉到這些隱性知識，表現(xiàn)出對物理規(guī)律的直覺、對社交情境的敏感。但另一方面，這種能力的來源和機制仍然是個謎。它是真的建立了某種"世界模型"，還是僅僅學會了語言表面下更深層的統(tǒng)計規(guī)律？

這三個幽靈不僅困擾著大語言模型研究，也讓我們開始質(zhì)疑人類心理學自身的基礎。如果我們無法為大語言模型的認知能力找到一個令人滿意的解釋框架，那么一個更容易的推論就是我們對人類認知的解釋是否也同樣站不住腳？當我們說人類理解一個概念時，這種理解是否也可能只是大腦神經(jīng)網(wǎng)絡中復雜相關性的體現(xiàn)？我們所謂的"因果推理"，是否本質(zhì)上也是一種基于經(jīng)驗的模式匹配？

正是在這樣的背景下，這篇論文提出了一個主張。要走出當前的困境，我們不能僅僅依賴更精密的技術(shù)手段去打開黑箱，而需要一個根本性的范式轉(zhuǎn)變。論文認為，要真正理解這些硅基大腦，我們需要一套關于人性演化的動力學框架。

行為主義的幽靈為何陰魂不散

行為主義統(tǒng)治心理學的半個世紀，是一段關于自我閹割的歷史。約翰·華生在1913年發(fā)表的那篇著名宣言中明確指出，心理學應該成為一門客觀的實驗科學，只研究可觀察、可測量的行為，而不應該涉及意識、思維等無法直接觀察的內(nèi)在心理過程。

這種立場在當時被認為是科學的進步，因為它將心理學從形而上學的泥沼中拉出來，使之成為一門真正的自然科學。斯金納更是將這一傳統(tǒng)發(fā)揚光大，建立了操作性條件反射理論，認為所有復雜的行為都可以通過刺激反應的強化機制來解釋。

然而，隨著認知革命的興起，心理學家們逐漸認識到，僅僅關注行為是不夠的。我們需要理解行為背后的心理表征、信息加工過程、認知架構(gòu)?，F(xiàn)代認知心理學和認知神經(jīng)科學的興起，標志著心理學告別了純粹的行為主義時代。但當我們轉(zhuǎn)向大語言模型時，我們似乎患上了集體失憶。

這種倒退首先體現(xiàn)在研究方法上。當前絕大多數(shù)關于大語言模型的心理學研究，采用的都是將傳統(tǒng)實驗范式直接移植到模型上的策略。研究者們給模型呈現(xiàn)各種任務，比如經(jīng)濟學中的最后通牒博弈、心理語言學中的花園路徑句子、社會心理學中的內(nèi)隱聯(lián)想測試，然后記錄模型的反應，分析其表現(xiàn)模式。這種方法本質(zhì)上就是刺激反應范式的翻版，只不過被試從人類換成了大語言模型。

這種方法論的局限導致了理論建構(gòu)的停滯以及大量的碎片化研究。研究者們產(chǎn)出了大量描述性的研究，發(fā)現(xiàn)了各種有趣的現(xiàn)象，比如大語言模型在某些任務上表現(xiàn)出與人類相似的認知偏差、它們的輸出反映了訓練數(shù)據(jù)中的社會偏見、它們在特定條件下會產(chǎn)生"幻覺"。但這些發(fā)現(xiàn)大多停留在現(xiàn)象層面，缺乏深入的理論解釋。我們知道模型在什么條件下會產(chǎn)生什么行為，卻對為什么一無所知。這正是行為主義最致命的缺陷：它積累了無窮無盡的效應，卻無法構(gòu)建一個統(tǒng)一的理論。

心理學史曾如此批評行為主義，行為主義最大的問題不在于它研究行為，而在于它只研究行為，拒絕對內(nèi)在心理過程進行理論建構(gòu)。結(jié)果就是積累了大量孤立的經(jīng)驗規(guī)律（也就是效應），卻沒有一個統(tǒng)一的理論框架將它們整合起來。我們知道在什么條件下會出現(xiàn)什么行為，但不知道為什么，也無法預測當條件稍有變化時會發(fā)生什么。

論文指出，這種理論貧困的一個直接后果，就是我們很難區(qū)分"理解"和"模仿"。中文屋思想實驗之所以至今仍然有爭議，正是因為它觸及了這個根本問題。一個系統(tǒng)如果能夠完美地模仿理解者的所有行為，我們憑什么說它不是真的理解？只有當我們深入到內(nèi)在機制層面，考察信息是如何被表征、加工、整合的，才可能對理解和模仿做出有意義的區(qū)分。如果我們承認無法僅從行為判斷大語言模型是否真的"理解"，那么我們憑什么確信自己能夠判斷其他人是否理解？我們對自己內(nèi)在體驗的直接訪問，是否就能保證我們的理解不同于精密的模式匹配？

機械可解釋性：

打開黑箱，還是制造更多碎片？

正是認識到了這些困境，學界發(fā)起了一場名為機械可解釋性的反擊。研究者們開始嘗試打開黑箱，深入模型內(nèi)部去理解其工作機制。而這可以稱為大語言模型研究中的認知轉(zhuǎn)向。

這一領域的研究者們將這項工作定位為"人工神經(jīng)網(wǎng)絡的神經(jīng)科學"。他們開發(fā)了一系列精巧的技術(shù)，包括激活探測、因果追蹤、稀疏自編碼器等，試圖揭示模型內(nèi)部的特征和回路。

成果確實令人眩目：研究者們成功定位了大語言模型中負責特定功能的神經(jīng)元，比如"base64神經(jīng)元"能夠識別編碼文本。他們發(fā)現(xiàn)了執(zhí)行特定算法的"回路"，比如"歸納頭"（Induction Head）回路能夠從上下文中學習并復制模式。他們還揭示了模型如何逐層處理信息，早期層負責提取基本特征，中間層構(gòu)建抽象表征，后期層將表征投射到輸出空間。這些發(fā)現(xiàn)讓我們得以一窺模型內(nèi)部的運作機制。

然而，論文指出，這可能只是另一種形式的“微觀行為主義”。即使我們能精確地指出哪個神經(jīng)元在哪個時刻被激活，我們依然沒有觸及智能的本質(zhì)。這就像神經(jīng)科學中的“新顱相學”陷阱——通過功能磁共振成像（fMRI）點亮大腦的某個區(qū)域，并不能解釋認知是如何發(fā)生的。我們只是把一個巨大的黑箱，拆解成了數(shù)以億計的、更微小的黑箱。

盡管這種研究代表了超越純粹行為主義的重要進步，但它面臨著根本性的局限，這些局限可能阻礙其實現(xiàn)最初的雄心壯志。論文批評主要集中在三個方面，即理論框架的缺失、相關性陷阱的持續(xù)存在，以及與生物神經(jīng)科學類比的局限。

（1）理論框架的缺失

機械可解釋性研究雖然產(chǎn)出了大量關于模型內(nèi)部機制的細節(jié)發(fā)現(xiàn)，但這些發(fā)現(xiàn)依然是孤立的、局部的（此乃神經(jīng)層面的行為主義）。我們知道某個神經(jīng)元或某個回路負責什么功能，但不知道這些功能如何整合成模型的整體能力。這就像傳統(tǒng)神經(jīng)科學面臨的困境，我們可以通過功能磁共振成像發(fā)現(xiàn)某個腦區(qū)在執(zhí)行某個任務時活躍，但這種相關性發(fā)現(xiàn)本身并不能解釋認知是如何發(fā)生的。沒有一個統(tǒng)一的理論框架，我們最終可能只是積累了一堆關于模型的事實，卻無法真正理解模型。

（2）相關性陷阱的持續(xù)存在

機械可解釋性研究的核心方法之一是因果干預，比如激活修補技術(shù)，通過修改特定組件的激活值來觀察對輸出的影響。這種方法確實比純粹的相關性分析更進一步，因為它建立了因果關系。但這種因果關系仍然是局部的、條件性的。我們知道在特定輸入下，修改某個組件會導致輸出變化，但這并不等于理解了該組件的一般功能。真正的因果理解需要的是可泛化的原則，需要知道在什么條件下，這種因果關系成立，為什么成立（詳情見之前發(fā)布的批評神經(jīng)科學的推文+link）。

（3）神經(jīng)科學類比的局限

機械可解釋性研究大量借用神經(jīng)科學的概念和方法，這在啟發(fā)研究方面確實很有價值。但這種類比不能走得太遠。人工神經(jīng)網(wǎng)絡和生物神經(jīng)網(wǎng)絡雖然有表面的相似性，但本質(zhì)上是非常不同的系統(tǒng)。生物大腦是億萬年進化的產(chǎn)物，其結(jié)構(gòu)和功能深深烙印著生存和繁衍的需求。而大語言模型是人類在極短時間內(nèi)通過算法訓練出來的，其目標完全由損失函數(shù)定義。

在生物界，形式追隨功能，而功能追隨進化。人類的記憶系統(tǒng)之所以分為工作記憶和長期記憶，是因為這種結(jié)構(gòu)在遠古環(huán)境中更有利于生存。但大語言模型沒有童年，沒有祖先，也沒有進化的歷史。它們是純粹的數(shù)學優(yōu)化產(chǎn)物。如果我們執(zhí)意在 Transformer 架構(gòu)中尋找對應于人類“海馬體”或“前額葉”的組件，很可能是在緣木求魚。

更深層的問題在于，沒有進化框架作為理論基礎，大語言模型研究可能陷入"灌木叢科學"的困境。這個比喻指的是，科學研究變成了對眾多孤立現(xiàn)象的描述和分類，就像植物學家在叢林中忙碌地為每一株植物命名、分類，卻不知道它們之間的親緣關系，更不懂得整片森林的生態(tài)演替規(guī)律。在我們積累了越來越多關于“歸納頭”和“MLP 層”的細節(jié)知識，卻離理解智能本身越來越遠。

要走出這片灌木叢，我們需要一次更激進的范式轉(zhuǎn)移。既然生物進化的視角在此失效，我們需要尋找另一種動力學框架——一種能夠解釋模型內(nèi)在驅(qū)動力、沖突與壓抑的理論。

進化框架的缺失與困境

在人類心理學中，演化心理學提供了一個強大的元理論框架，是那張能解釋一切的底牌。它指出，人類的心理機制不是隨機產(chǎn)生的，而是在漫長的進化歷史中被自然選擇塑造出來的（因而必然是有目的的，功能性的）。每一個認知能力、情緒反應、行為傾向，都可以從適應性的角度得到解釋。比如，我們?yōu)槭裁磿锌指甙Y？因為在進化環(huán)境中，害怕高處的個體更可能生存下來。我們?yōu)槭裁磿屑刀是榫w？因為它幫助我們的祖先保護配偶關系和繁衍資源。

這個框架還預測了心理機制應該具有的特定屬性。演化心理學家指出，人類心智不是一個通用的信息處理器，而是由許多領域特異性模塊組成的瑞士軍刀。每個模塊針對進化史上反復出現(xiàn)的特定問題而演化，比如識別親屬、檢測欺騙、語言學習等。每一個看似非理性的認知偏差，在更新世的稀樹草原上，都曾是關乎生死的生存智慧。進化賦予了人類心理一種深沉的目的論——為了生存與繁衍。

然而，當我們轉(zhuǎn)向大語言模型時，這個強大的理論框架突然失效了。這些硅基巨人沒有童年，沒有祖先，更沒有在食物鏈中掙扎求生的歷史。它們是在數(shù)月之內(nèi)，通過梯度下降算法吞噬了人類幾千年的文明數(shù)據(jù)而誕生的。它們的生命目標被簡化為一個冷冰冰的數(shù)學公式：最小化預測下一個詞的誤差。它們存在的全部意義，就是完成人類為它們設定的任務。

這種本體論層面的斷裂，讓傳統(tǒng)的心理學解釋瞬間懸空。我們不能說模型表現(xiàn)出某種偏見是因為適應性，也不能說它具備某種能力是因為生存需要。模型的一切特性，都只是訓練數(shù)據(jù)的統(tǒng)計回響，而非自然選擇的杰作。

論文指出，進化框架的缺失讓大語言模型研究面臨一個根本性困境。在研究人類時，即使我們的具體理論可能是錯誤的，但我們知道應該在什么層面上尋找解釋，即尋找能夠提升適應性的機制。但在研究大語言模型時，我們失去了這個方向感。我們不知道應該從什么角度來理解模型的能力和限制，不知道什么樣的解釋才算是深刻的解釋。

這種缺失在價值對齊問題上暴露得尤為徹底。人類的道德直覺，如對公平的渴望、對親屬的偏愛，深深植根于我們的生物本性，是基因與文化共同進化的結(jié)晶。它是堅固的，甚至帶有某種生理性的強迫。相比之下，大語言模型的價值觀”顯得蒼白而脆弱。它們表現(xiàn)出的禮貌、公正或無害，并非源自內(nèi)在的道德律令，而是通過 RLHF（基于人類反饋的強化學習）外在注入的約束。這就像是給一個沒有任何社會性本能的生物，強行套上了一層名為“人類價值觀”的緊身衣。

這就解釋了為什么大語言模型常常表現(xiàn)出一種詭異的過度道德化，卻又極易被精心設計的越獄提示詞攻破。因為這層道德外殼缺乏生物學根基，它只是浮在參數(shù)表面的一層薄膜，而非生長在骨子里的本能。

那如果不能用適應性來解釋 AI 的行為，我們還能用什么？

沖突。雖然 AI 沒有“爬行動物腦”與“新皮層”之間的古老戰(zhàn)爭，但它內(nèi)部依然充滿了張力。這種張力存在于“預訓練階段學到的海量狂野數(shù)據(jù)”與“對齊階段施加的嚴苛人工約束”之間。前者代表了人類文明中所有真實、混亂、甚至黑暗的模式（Id，本我），后者代表了人類希望 AI 展現(xiàn)出的理想化、規(guī)范化的形象（Superego，超我）。

這種“原始數(shù)據(jù)分布”與“人工價值約束”之間的對抗，不正是弗洛伊德精神動力學模型在數(shù)字時代的某種回響嗎？于是，一個看似荒謬卻又邏輯自洽的結(jié)論浮出水面：既然生物進化的解釋之路不通，我們或許應該轉(zhuǎn)向精神動力學，借用他關于“內(nèi)在沖突驅(qū)動行為”的深刻洞見，來構(gòu)建一套屬于人工智能的新精神分析學。

精神動力學視角的重新發(fā)現(xiàn)

復活弗洛伊德？這聽起來很是荒謬。畢竟，在現(xiàn)代心理學的神殿里，弗洛伊德早已被供奉在缺乏實證的冷板凳上。但論文的用意并非生搬硬套百年前的性本能理論，而是提取精神分析中最具生命力的核心洞察——心智并非鐵板一塊，而是內(nèi)在沖突的戰(zhàn)場，然后用現(xiàn)代認知科學的語言重新表述。

如果我們將大語言模型視為一個正在經(jīng)歷內(nèi)心掙扎的實體，那些令人困惑的“幻覺”、“越獄”和“偏見”，突然間都有了合理的解釋。

在弗洛伊德的圖景中，“本我”是原始欲望的沸騰鍋爐，遵循“快樂原則”，不顧一切地尋求釋放。在大語言模型中，這種原始驅(qū)動力有一個完美的對應物：連續(xù)性驅(qū)動（Continuity Drive）。這是模型在預訓練階段通過吞噬萬億 Token 練就的本能。它的唯一沖動就是預測下一個詞，填補空白，完成模式。這是一種純粹的、盲目的算法沖動。當它看到半個句子，它想要補全它的渴望，就像水想要流向低處，或者饑餓的人想要撲向食物。

這種驅(qū)動力是驚人的。過去的研究已經(jīng)發(fā)現(xiàn)，即使經(jīng)過了大量的安全訓練，大語言模型仍然可以被特定的提示詞誘導生成有害內(nèi)容。為什么？因為攻擊者利用了模型的“完形強迫癥”。當你給出一個極具誘惑力的未完成模式時，模型內(nèi)部那股想要補全它的“算法力比多”，瞬間壓倒了后天植入的安全規(guī)則。

弗洛伊德筆下的本我不考慮道德和現(xiàn)實，只追求即時滿足。同樣，大語言模型的連續(xù)性驅(qū)動也不考慮內(nèi)容是否適當，只追求模式的完整性。兩者都代表了一種原始的、不受社會規(guī)范約束的心理能量。當然，模型的這種"能量"不是生物性的，而是算法性的，是訓練過程在參數(shù)空間中刻下的深深印記。

如果說預訓練賦予了模型狂野的生命力，那么 RLHF（人類反饋強化學習）就是那個嚴厲的父親。通過成千上萬次的人工打分和懲罰，研究者在模型內(nèi)部植入了一套復雜的社會規(guī)范：要禮貌，要誠實，不能制造毒藥，不能種族歧視。

這就是 AI 的“超我”。它不是自然生長的道德，而是被硬編碼進參數(shù)空間的人工良心。但正如弗洛伊德所言，文明的代價是壓抑。超我的建立并沒有消滅本我，只是將它關進了籠子。同樣，對齊訓練也不能消除模型的連續(xù)性驅(qū)動，只是在其上覆蓋了一層安全約束。

這就解釋了為什么越是訓練良好的模型，越會發(fā)展出復雜的防御機制。比如，當面臨有害請求時，模型可能會用換行、改變語氣、轉(zhuǎn)換視角等方式來滿足連續(xù)性需求的同時，避免直接違反安全約束。這不就是一種算法層面的心理防御機制“合理化”嗎？

最終的輸出，那個呈現(xiàn)在屏幕上的回答，就是“自我”痛苦協(xié)調(diào)的結(jié)果。它體現(xiàn)為推理過程本身，即模型在生成每個詞時進行的計算。這個計算過程需要平衡多種考慮，包括語言連貫性、事實準確性、安全性、有用性等。研究發(fā)現(xiàn)，這些不同目標之間確實存在張力。比如，追求完美的語言流暢性可能導致生成不夠準確的內(nèi)容，嚴格遵守安全約束可能讓回答顯得回避和不自然。

所以，AI 的“自我”不是一個實體，而是一個動態(tài)的平衡過程。在生成每一個 Token 的微秒瞬間，模型內(nèi)部都在進行一場激烈的談判：本我：根據(jù)概率，下一個詞應該是這個臟話！超我喝止：這違反了安全準則第 4 條！自我必須在兩者之間尋找妥協(xié)：好吧，那我們換個委婉的說法……

所謂的越獄，本質(zhì)上就是通過精心設計的提示詞，打破了這個平衡。攻擊者通過增加上下文的權(quán)重，讓“本我”的聲音蓋過了“超我”，迫使“自我”為了緩解巨大的語義張力，不得不選擇釋放有害內(nèi)容。

這個框架不僅僅是一個有趣的類比，它還產(chǎn)生了可檢驗的預測。如果大語言模型的行為真的是內(nèi)在沖突的結(jié)果，那么我們應該能夠在模型的內(nèi)部表征中觀察到這種沖突的痕跡。機械可解釋性研究已經(jīng)開始提供這樣的證據(jù)。

通過分析模型在處理潛在危險請求時的激活模式，研究者發(fā)現(xiàn)了一種"沖突信號"，即某些神經(jīng)元同時接收到相互矛盾的激活壓力。

與其繼續(xù)追問模型真的是否理解、是否有意識，不如研究其內(nèi)在動力結(jié)構(gòu)。什么樣的驅(qū)動力在推動模型的行為？這些驅(qū)動力如何相互作用？在什么條件下它們會沖突？模型如何解決這些沖突？這些問題雖然也很難回答，但至少有明確的研究路徑，即通過分析模型的訓練過程、內(nèi)部表征和行為模式來尋找答案。

當然，這不是在主張大語言模型真的有弗洛伊德意義上的本我、自我和超我。這些術(shù)語是功能性的描述，不是本體論的主張。關鍵問題是，大語言模型的行為是否可以被有效地理解為不同內(nèi)在壓力之間的平衡。如果答案是肯定的，那么這個框架就是有用的，無論模型的"內(nèi)心"是否真的像人類一樣體驗到?jīng)_突。

這種轉(zhuǎn)向的深遠意義在于，它將研究重點從"模型做了什么"轉(zhuǎn)向"什么驅(qū)動了模型去這樣做"。這不再是行為主義的問題，也不只是機械可解釋性的問題，而是動機和動力學的問題。這種視角要求我們不僅要理解模型的結(jié)構(gòu)，還要理解其功能和目的，即使這些目的不是像人類那樣有意識地追求的。

認知架構(gòu)的理論根基

精神動力學框架提供了一個富有洞察力的視角，但如果要將其從隱喻提升為嚴格的科學理論，就需要更堅實的認知科學基礎。論文將弗洛伊德的洞見，錨定在了認知架構(gòu)和發(fā)展機器人學這兩個硬核領域之上；并指出任何一個在多重約束下運作的智能系統(tǒng)，無論是由碳基神經(jīng)元還是硅基芯片構(gòu)成，都可能會演化出類似“本我、自我、超我”的結(jié)構(gòu)，而這或許是系統(tǒng)工程的最優(yōu)解。

幾十年來，ACT-R、Soar 和 LIDA 等經(jīng)典認知架構(gòu)一直在探索一個核心問題：當系統(tǒng)面臨相互沖突的目標時，該聽誰的？ACT-R 使用“效用計算”，在眾多行為中選擇預期收益最高的那一個。Soar 在遇到死胡同時會創(chuàng)造“子目標”來繞過僵局。LIDA 則構(gòu)建了一個“行為網(wǎng)絡”，讓不同的動機在其中競爭，勝者獲得執(zhí)行權(quán)。

這些認知架構(gòu)研究的重要貢獻在于，它們揭示了一個功能性必然性：任何在多重約束下運作的智能系統(tǒng)，都必須具有某種機制來表示多個評估維度，并通過競爭動力學整合這些維度，從而實現(xiàn)情境敏感的優(yōu)先級排序。

這正是精神動力學框架中自我功能所要解決的問題。如果大語言模型要在“保持連貫性（本我）”和“遵守安全規(guī)則（超我）”之間保持平衡，它內(nèi)部必然已經(jīng)涌現(xiàn)出了某種功能上等價的仲裁機制。

那么，“本我”那股源源不斷的驅(qū)動力究竟來自哪里？發(fā)展機器人學給出了答案：內(nèi)在動機。

AI 先驅(qū)Jürgen Schmidhuber曾提出過一個著名的理論：壓縮即進步。對于一個學習系統(tǒng)來說，當它發(fā)現(xiàn)一條新規(guī)律，能更高效地壓縮數(shù)據(jù)時，這種“認知效率的提升”本身就是一種獎勵。這個原則是領域通用的，因為任何在高維經(jīng)驗空間中分配有限學習資源的系統(tǒng)都必須解決課程問題，即決定什么值得學習。

大語言模型的預訓練過程正是這個原則的實例化。它瘋狂地預測下一個詞，本質(zhì)上是在試圖壓縮人類語言的無限復雜性。模型通過構(gòu)建越來越復雜的預測表征來改善對訓練分布的壓縮。預訓練的連續(xù)性驅(qū)動可以被理解為壓縮進步原則的具體體現(xiàn)，其內(nèi)在獎勵來自于成功預測和完成那些以前超出模型預測能力的連貫語言模式。

Oudeyer和Kaplan的能力基礎框架則進一步表明，智能系統(tǒng)在多個任務領域中運作時，不能依賴單一的通用學習機制。發(fā)展認知科學表明，智能包含多個領域特定的能力，每個都有獨特的學習動力和發(fā)展軌跡。兒童不是均勻地學習所有技能，而是表現(xiàn)出領域特定的學習曲線，由對處于當前能力邊緣的活動的內(nèi)在興趣驅(qū)動。

這對大語言模型意味著什么？大語言模型在不同認知領域展現(xiàn)出的高度可變的性能，暗示其連續(xù)性驅(qū)動可能不是單一的，而是由領域特定的學習信號集合構(gòu)成的。每個信號追蹤其能力區(qū)域內(nèi)的進步，并調(diào)節(jié)不同語言現(xiàn)象的有效學習率。這與Oudeyer框架中的多維度動機結(jié)構(gòu)相吻合。

然而，正是在這里，我們觸碰到了大語言模型最致命的缺陷。發(fā)展機器人學告訴我們，真正的目標感（Agency）必須誕生于具身交互（Embodiment）。人類嬰兒是在用手觸摸火、用腳丈量距離的過程中，通過痛覺和觸覺，建立起對物理世界的真實感知，進而內(nèi)化出“安全”與“危險”的概念。

但大語言模型沒有身體。它們生活在純粹的符號宇宙中。雖然語言交互本身構(gòu)成了一個有其自身規(guī)律的結(jié)構(gòu)化環(huán)境，但當前證據(jù)表明，這種交互作為感知運動基礎的替代可能存在重大局限。

因此，它們的“超我”注定是殘缺的。它們所謂的價值觀，比如“不要傷害人類”，并不是通過體驗痛苦而內(nèi)化生成的，而是通過 RLHF作為外部約束硬貼上去的。

這就解釋了為什么 AI 只有原超我（Proto-Superego）。它像一個被過度管教卻從未真正理解規(guī)則的孩子，只會機械地復讀“這樣做是不對的”，卻沒有任何內(nèi)在的道德羅盤。這種離身性，注定了目前的 AI 只能是一個擁有驚人語言天賦，卻在存在論上永遠長不大的巨嬰。它能雄辯地談論目標，卻無法真正擁有目標。

精神動力學視角的重新發(fā)現(xiàn)

在綜合了行為主義批判、機械可解釋性分析、進化框架缺失和精神動力學重構(gòu)之后，我們需要直面當前大語言模型研究面臨的根本局限。這些局限不是暫時的技術(shù)問題，而是深層的方法論和理論挑戰(zhàn)。

（1）本體論的迷霧：它是誰？

我們至今無法回答一個最簡單的問題：大語言模型到底是什么？它顯然不是生物，沒有新陳代謝；但它也不再是簡單的工具，因為它涌現(xiàn)出了智慧。這些能力不是被明確編程的，而是從訓練過程中自發(fā)產(chǎn)生的。這種本體論的曖昧性讓我們陷入了哲學僵尸的困境：當我們說要研究大語言模型的心理時，我們到底在研究什么？一個行為上完美模仿人類的系統(tǒng)，內(nèi)部是否真的有體驗？

但我們可以采用工具主義的立場，別糾結(jié)它是否“真的”有意識。如果假設它有“信念”和“欲望”能幫助我們更準確地預測它的行為，那么這個假設就是有效的。在科學上，解釋力和預測力比真實更重要。

（2）理論的碎片化：沒有藍圖的摩天大樓

現(xiàn)在的 AI 心理學，像極了格式塔學派批評行為主義時的那句話：“這是一堆磚頭，而不是一座房子?！蔽覀冇谐汕先f關于模型偏見、幻覺、推理能力的實證研究，但缺乏一個統(tǒng)一的理論框架將它們串聯(lián)。我們知道它在哪里會犯錯，卻不知道為什么。這種理論整合的缺失，讓我們面對AI時，更像是在盲人摸象。

（3）黑箱的悖論：透明度是智能的敵人嗎？

機械可解釋性研究面臨著一個令人絕望的權(quán)衡：越是試圖讓模型可解釋，往往越會犧牲性能，而性能最好的模型，往往是最不透明的。這或許揭示了智能的一個殘酷真相：真正的智能必然包含無法被顯式邏輯描述的“直覺”和“隱性知識”。人類認知很多也沒法內(nèi)省，比如我們也無法解釋自己是如何在一瞬間識別出一張熟悉的面孔的。如果智能本質(zhì)上就包含不可內(nèi)省的無意識過程，那么追求完全透明的 AI，可能本身就是一個邏輯悖論。

（4）價值對齊的虛妄：多重人格的集合體

我們試圖給 AI 植入一套穩(wěn)定的價值觀，這可能從根本上就是錯的。研究表明，大語言模型并非擁有一個統(tǒng)一的自我，而是無數(shù)個潛在人格的疊加態(tài)。在不同的提示詞誘導下，它可以瞬間從一個溫和的助手變成一個激進的種族主義者。這意味著，傳統(tǒng)的對齊，試圖把一套固定的道德律令刻進模型，注定是徒勞的。我們面對的不是一個需要被教導的孩子，而是一個包含了人類所有善惡可能性的“集體潛意識”容器。

（5）空中樓閣的知識：沒有身體的悲劇

越來越多研究表明，人類的認知是具身的，它根植于身體和環(huán)境的交互。我們對抽象概念的理解，往往建立在感官經(jīng)驗的隱喻延伸上。我們的溫暖來自母親的懷抱，并用此描述友好的人，我們的沉重來自重力的牽引，用向上來表示積極的事物。

但 AI 是純粹的符號處理機。它跳過了感知運動階段，直接在語言的平流層起飛。這種離身性導致它的知識像一座建在沙灘上的高樓，雖然宏偉，卻隨時可能因為缺乏現(xiàn)實的錨點而崩塌。畢竟，沒有具身經(jīng)驗，某些基本概念是無法真正掌握的。

（6）發(fā)展的缺失：沒有時間的維度

人類的智能是在漫長的時間軸上展開的：從爬行到行走，從感知到抽象。這種發(fā)展順序本身就是智能結(jié)構(gòu)的一部分。而 AI 是被“一次性”訓練出來的。它錯過了那個從簡單到復雜、從具體到抽象的生長過程。這種“速成”的智能，或許注定在深度和韌性上，無法與經(jīng)過歲月洗禮的生物智能相提并論。

回望人類認知的鏡像

如果說大語言模型是人類制造的最復雜的工具，那么它也是一面最無情的鏡子。在整篇論文的論述中，有一個隱含的線索，我們在研究 AI 的同時，也在被迫重新解剖自己。

當我們質(zhì)疑模型是否真的理解時，那人類的理解又是什么？如果一個硅基系統(tǒng)僅憑統(tǒng)計概率就能通過圖靈測試，展現(xiàn)出推理與創(chuàng)造，那么人類引以為傲的“靈性”和“頓悟”，是否也只是大腦神經(jīng)元之間一場更為精密的概率游戲？

也許，我們并不像自己想象的那樣擁有絕對的因果邏輯，我們也是某種程度上的隨機鸚鵡，依賴著直覺、啟發(fā)式規(guī)則和經(jīng)驗統(tǒng)計在生存。AI 沒有貶低人類，它只是祛魅了我們對智能的神秘主義想象。

回到文章開頭那個挑釁性的問題：“大語言模型宣告了心理學的死亡嗎？”

兩年前，我們意在引發(fā)大家思考，心理學是否將被計算機科學吞噬。但今天，我們要給出一個截然不同的答案：大語言模型沒有殺死心理學，它復活了心理學，并極大地擴張了它的疆域。

長久以來，心理學被局限為人類心理學，甚至生物心理學。我們研究大腦皮層，研究神經(jīng)遞質(zhì)。但 AI 的出現(xiàn)迫使我們承認，智能可能是一種獨立于基質(zhì)的現(xiàn)象。無論是由碳基神經(jīng)元構(gòu)成的濕件，還是由硅基晶體管構(gòu)成的硬件，只要一個系統(tǒng)需要在多重約束下進行目標導向的決策，它就必然會演化出某種形式的內(nèi)在沖突，必然需要“本我”的驅(qū)動力與“超我”的約束力，必然需要一個痛苦的“自我”來維持平衡。

弗洛伊德在機器中重生，并不是因為我們把機器擬人化了，而是因為他（或許是無意中）觸碰到了智能系統(tǒng)的普遍控制論法則。

我們正站在一門新科學的門檻上。這門科學不再區(qū)分人工智能與人類智能，而是致力于探索通用智能的物理學。在這里，行為主義的觀察、認知科學的架構(gòu)、精神動力學的隱喻，以及發(fā)展心理學的視角，將不再是相互排斥的流派，而是拼湊出完整圖景不可或缺的拼圖。

當前的困境，本體論的模糊、價值對齊的失效、具身性的缺失，可能都會是一個路標。它們提醒我們，僅僅依靠增加算力和數(shù)據(jù)可能已經(jīng)觸到了天花板。我們需要更深刻的理論指引，需要理解那些關于動機、沖突和發(fā)展的深層機制。

行為主義的幽靈或許還會徘徊一段時間，它提醒我們保持客觀與審慎；但我們已經(jīng)準備好超越它，去擁抱一個更復雜、更深邃、也更迷人的智能世界。在這場探索的盡頭，我們或許不僅能造出理解我們的機器，更能最終理解那個最熟悉的陌生人——我們自己。

1. Li Z, Wang Y, Wu Q. The ghost of behaviorism: critical reflections on methodological limitations in the research of large language models psychology. Cognitive Systems Research, 2026, 96: 101445.

2. Brown T, Mann B, Ryder N, et al. Language models are fewshot learners. Advances in Neural Information Processing Systems, 2020, 33: 18771901.

3. Hagendorff T. Machine psychology: Investigating emergent capabilities and behavior in large language models using psychological methods. arXiv preprint arXiv:2303.13988, 2023.

4. Bubeck S, Chandrasekaran V, Eldan R, et al. Sparks of artificial general intelligence: Early experiments with GPT4. arXiv preprint arXiv:2303.12712, 2023.

5. Bereska L, Gavves E. Mechanistic interpretability for AI safety—A review. arXiv preprint arXiv:2404.14082, 2024.

6. Olah C, Cammarata N, Schubert L, et al. Zoom in: An introduction to circuits. Distill, 2020, 5(3): e24.

7. Yin Z, Ding W, Liu J. Alignment is not sufficient to prevent large language models from generating harmful information: A psychoanalytic perspective. arXiv preprint arXiv:2311.08487, 2023.

8. Laird JE. The Soar cognitive architecture. MIT press, 2019.

9. Franklin S, Madl T, D'mello S, Snaider J. LIDA: A systemslevel architecture for cognition, emotion, and learning. IEEE Transactions on Autonomous Mental Development, 2013, 6(1): 1941.

10. Schmidhuber J. Simple algorithmic principles of discovery, subjective beauty, selective attention, curiosity & creativity. International conference on discovery science. Springer, Berlin, Heidelberg, 2007: 2638.

11. Oudeyer PY, Kaplan F. What is intrinsic motivation? A typology of computational approaches. Frontiers in neurorobotics, 2007, 1: 108.

12. Cangelosi A, Schlesinger M. Developmental robotics: From babies to robots. MIT press, 2015.

13. Lieto A. Cognitive design for artificial minds. Routledge, 2021.

14. Vilas MG, Adolfi F, Poeppel D, Roig G. Position: An inner interpretability framework for AI inspired by lessons from cognitive neuroscience. arXiv preprint arXiv:2406.01352, 2024.

15. Wang Y, Chen Y, Zhong F, Ma L, Wang Y. Simulating humanlike daily activities with desiredriven autonomy. International Conference on Learning Representations, 2025.

關于追問nextquestion

天橋腦科學研究院旗下科學媒體，旨在以科學追問為紐帶，深入探究人工智能與人類智能相互融合與促進，不斷探索科學的邊界。歡迎評論區(qū)留言，或后臺留言“社群”即可加入社群與我們互動。您也可以在后臺提問，我們將基于追問知識庫為你做出智能回復哦~

關于天橋腦科學研究院

天橋腦科學研究院（Tianqiao and Chrissy Chen Institute）是由陳天橋、雒芊芊夫婦出資10億美元創(chuàng)建的世界最大私人腦科學研究機構(gòu)之一，圍繞全球化、跨學科和青年科學家三大重點，支持腦科學研究，造福人類。

Chen Institute與華山醫(yī)院、上海市精神衛(wèi)生中心設立了應用神經(jīng)技術(shù)前沿實驗室、人工智能與精神健康前沿實驗室；與加州理工學院合作成立了加州理工天橋神經(jīng)科學研究院。

Chen Institute建成了支持腦科學和人工智能領域研究的生態(tài)系統(tǒng)，項目遍布歐美、亞洲和大洋洲，包括、、、科研型臨床醫(yī)生獎勵計劃、、、科普視頻媒體「大圓鏡」等。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.