以ChatGPT、DeepSeek為代表的大模型采取“大數據、大算力、強算法”的技術路線,極大地推動了語言理解、意圖識別、內容生成、問題求解等領域的進展,成為當前人工智能的主流和巔峰。然而,在令人矚目的能力躍遷背后,其固有缺陷與結構性瓶頸也日益凸顯。
當前大模型主要面臨四個方面的局限。其一,過度消耗數據與算力。參數規模動輒千億乃至萬億級,需要海量數據擬合并消耗巨大算力與能源;推理模型因生成大量“思考”Token,能耗進一步攀升。其二,災難性遺忘。在面向新任務微調時,模型通過全局參數更新適配新數據,卻以犧牲既有知識為代價,難以實現真正的持續學習。其三,抽象能力弱。模型更擅長從大數據中提取統計模式,而非形成對概念本質的深層理解,推理魯棒性差,出現各類幻覺。其四,黑盒難解釋。復雜網絡結構與高度非線性映射,使推理過程難以解釋與溯因,更難以“知錯就改”。
究其根源,在于當前人工神經網絡架構、訓練與推理機制的固有局限。首先,人工神經網絡架構缺乏可塑性,缺少與問題背后機理的聯系,難以刻畫因果關系。其次,訓練時反向傳播機制以全局誤差為優化目標,迭代更新所有參數,消耗大量訓練數據與算力,并導致遺忘。再次,推理時所有參數都參與正向傳播運算,消耗大量算力。這些根源性問題進一步導致大模型存在幻覺、可控性差、魯棒性不足等缺陷。更為嚴峻的是,大模型的原創概念、核心技術與算力生態是由美國打造和主導,所做的是“延長線”式的工作。
回顧人工智能發展歷史,腦科學一直推動著人工智能的發展,今天的大模型正是借鑒了大腦在網絡拓撲、信息表征以及編碼機制方面的理論。因此,深度借鑒腦科學的研究成果,有望找到一條更加有效的機器智能發展路徑。
受此啟發,我們提出了人腦記憶智能啟發的機器智能新思路。腦科學的研究表明:記憶是智能的基礎,深刻影響人腦學習、抽象、聯想、推理等高級認知活動。第一,記憶的稀疏激活、預測編碼等機制使人腦高度節能。人腦針對特定任務一般只激活約1%~4%的神經元,預測編碼則減少了冗余信息處理,使得人腦高效提取記憶,快速學習新信息。第二,突觸可塑性與吸引子機制是人類持續學習的基礎。大腦采取局部學習策略,僅更新少量特定腦區的突觸連接;同時人腦吸引子具有良好的抗噪聲能力,能回憶出完整信息,避免了災難性遺忘。第三,抽象?具象協同機制使得人腦能快速適應新任務、新場景。大腦能從具象信息中提取抽象概念,并將二者關聯,形成完整、靈活且高效的記憶表征。第四,抽象與聯想協同使得人腦推理更具邏輯性與可解釋性。抽象有助于人腦在不同場景中進行類比和推理,聯想因其連貫思維使得推理可解釋。這些機制共同鑄就了人腦低功耗、小樣本、強泛化、可解釋的智能特征,為設計機器記憶智能提供了天然藍圖。
“機器記憶智能”的核心思想是:將人腦記憶機理引入機器智能的表征、學習與推理過程。以吸引子為機器記憶基本單元,構建“層間抽象?層內聯想”的表征結構;借鑒突觸可塑性與稀疏激活機制,形成低功耗、小樣本、強泛化的持續學習機制;將聯想?混沌的動力學引入記憶激活與推理過程,實現過程可解釋、結果能溯因并在不符合常識的環境下具有探索性推理的能力。機器記憶智能有望從根本上擺脫傳統數據驅動的路徑依賴,推動人工智能與腦科學深度交叉融合,走出一條不同于大模型的人工智能自主創新發展之路。
作者簡介
![]()
鄭慶華
中國工程院院士,同濟大學黨委書記,教育部科技委學部委員,教育部大學計算機教學指導委員會主任,國家自然科學基金創新群體負責人。研究領域為大數據知識工程、機器記憶智能。獲得國家科技進步二等獎 3 項,國家教學成果一等獎2 項、二等獎 3 項,省部級科學技術一等獎 5 項、中國自動化學會科技進步特等獎以及何梁何利基金“科學與技術進步獎”、中國科協“求是”杰出青年獎、中國青年科技獎、國務院政府特殊津貼專家等獎項和榮譽。
來源:智能系統學報
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.