![]()
![]()
對談嘉賓
Tomaso Poggio
麻省理工學院腦與認知科學系講席教授,麥戈文腦科學研究所研究員,麻省理工學院計算機科學與人工智能實驗室(CSAIL)成員
Poggio教授是計算神經科學領域巨匠,研究領域涵蓋視覺系統的生物物理和行為、人類和機器的視覺和學習的計算分析。他的研究極富開拓性,是被引用最多的計算神經科學家之一。他的兩位前博士后 Demis Hassabis和Amnon Shashua 分別是 DeepMind 和 Mobileye 的創始人。
![]()
主持人
Paul Middlebrooks
卡內基梅隆大學的特聘助理研究員
卡內基梅隆大學的特聘助理研究員,同時是播客“Brain Inspired”的主持人。他主要研究運動皮層和基底神經節神經群體活動如何在自由行為的小鼠中支持自然行為,致力于揭示神經活動與復雜行為之間的關系。
目錄:
01 學習:通向智能理論的真正入口
02 為什么淺層理論不夠?
03 為什么少參數意味著能泛化?
04 組合性是否存在于真實神經系統?
05 流形還是組合?不同理論的解釋力與進化視角
保羅:今天這位嘉賓的履歷實在太過豐富,我恐怕難以在幾句話中介紹清楚。他是托馬索·波焦(Tomaso Poggio)。至于他的頭銜,實在太多了。
他是麻省理工學院腦與認知科學系的Eugene McDermott講席教授,麥戈文腦科學研究所研究員,麻省理工學院計算機科學與人工智能實驗室(CSAIL)的成員。此外,他還分別是生物與計算學習中心以及腦、心智與機器中心兩個研究中心的負責人。
托馬索發表論文的年頭,比我的年紀還要大,而我也早已不再是初出茅廬的毛頭小子了。在谷歌學術上,他最早的一篇論文發表于1972年,刊登在Kybernetik上。論文題目是《時間記憶與視動反應的全息特性》(Holographic Aspects of Temporal Memory and Optomotor Responses)。
簡而言之,他在這條路上已深耕多年。他究竟在探尋什么?答案是智能背后的理論基石。其中的關鍵詞在于“理論”,托馬索始終對智能背后的理論原則感興趣。為此,他將人工智能與大腦的運作機制并置研究。
我們今天擁有非常出色的人工智能。這樣的系統已經存在一段時間,從最初并不成熟,發展到如今性能驚人,并且仍在不斷進步。但從根本上講,我們依然沒有看透它是如何運作的。人工智能的早期發展當然有理論基礎作為起點。但近年來這波洶涌的AI浪潮,本質上是由工程實踐驅動的,在于構建和擴展系統,而不是在深入理解其原理。
托馬索用一個歷史類比,來說明當前人工智能領域工程與理論之間的關系。他認為,我們現在的處境有點像當年伏打與麥克斯韋之間的那段時期。當年,亞歷山德羅·伏打(Alessandro Volta)發明第一塊電池之后,人類第一次獲得了持續穩定的電源。隨之而來的是大量應用的出現,人們開始利用電,并逐漸將其工程化。但那時,人們并不真正理解電的本質。直到多年以后,詹姆斯·麥克斯韋(James Clerk Maxwell)提出電磁方程組,系統建立起電磁學理論,人類才真正理解電磁現象的規律。正是這套理論,使后來一系列技術得以發展,包括計算機以及現代人工智能。在托馬索看來,今天的人工智能,很可能正處在伏打與麥克斯韋之間的階段。
在那個時期,從工程突破到理論成熟,中間經歷了很多年。當然,當時的信息傳播遠比今天緩慢。正如托馬索稍后提到的,那時消息主要靠馬匹傳遞。但即便如此,從電池被發明,到相關應用逐步出現,再到人們真正理解電為何以及如何運作,這之間依然相隔多年。他認為,我們今天正處在類似的階段。因此,他多年來孜孜不倦地鉆研那些理論原則,試圖以此照亮我們對智能運作機制的理解之路。
今天,我們會討論他近年來一直在研究的一些理論原則。在他看來,如果想構建一個高效、可計算的函數系統,并讓這些函數組合出一個能支撐智能行為的泛化計算體系,那么這些原則在理論上是非常重要的。
如果要給這些原則一個名稱,其中一個則是“稀疏組合性”(sparse compositionality)。它的含義是,如果你希望高效地計算出某種智能行為,那么這個系統需要由許多相對簡單的函數構成。這里的“簡單”,指的是每一個函數本身只依賴于少量變量。當系統具備這樣的結構,由多個低維函數組合而成時,從理論上說,它更有可能實現泛化。
這也解釋了為什么深度神經網絡需要“深度”才能發揮作用。它依賴于大量簡單函數的重復與組合。這種結構聽起來有些像大腦的新皮層。我們在對話中也討論了,這些原則是否只適用于人工智能和深度學習,還是同樣適用于我們的大腦。此外,對話中我們還談到了他是如何發展出這些理論,以及他為何選擇從理論角度理解智能的。
在這次對話中,我尤其享受于托馬索分享他數十年來與不同領域杰出人物合作、研究有趣問題的經歷,而且他至今仍在繼續這樣的工作。我們這次對談,只談到了托馬索多年研究中的一小部分,從而了解到了他工作的一個側面。下面,讓我們正式開始。
![]()
學習:通向智能理論的真正入口
保羅:大多數科學家在科研生涯中都會經歷樂觀與悲觀的起伏,尤其是在早期階段。也許那正是關鍵所在,我也說不太準。這種起伏既體現在對自己研究進展的判斷上,也體現在對整個領域前景的看法上。
舉個例子,當年你和大衛·馬爾(David Marr)提出分析層級框架,后來又把“學習”加入為第四個層級。我想,當時你應該是樂觀的,覺得這會真正開啟一個新的維度,也可能會加快研究進展。如果大家意識到,學習才是需要關注的重點,或許整個領域都會因此受益。而且,從你的研究軌跡和做事方式來看,,你似乎是一個無論境遇如何,都能穩步向前的人。你是個例外嗎?還是說,在這方面你也和常人無異,同樣會經歷這種起伏?
托馬索:我也會經歷那種起伏。有些起伏很大,可能持續幾個月,甚至幾年。也有小的,日常的波動,就像是今天樂觀,明天又悲觀的表現。“我能證明這個定理,我已經證明了。”然后又發現,“不對,我錯了。”諸如此類。
至于把“學習”作為第四個層級加入框架,那是后來回顧時的說法。其實在很多年之前,我已經意識到了學習的重要性。
我第一篇關于機器學習的論文,大概是在 1981年左右,討論的是非線性學習。不過當時我決定先去研究其他問題,比如人類視覺、立體視覺,我們如何看到三維世界。在真正回到學習這個主題之前,大約花了十年時間做這些研究。可以說,關于學習的研究我是晚了一些才重新展開的。
保羅:是因為學習這個問題更難,還是因為那些其他的問題更有吸引力呢?
托馬索:主要是那些問題更容易下手,而學習確實更具挑戰性、更難一些。而且我一直有一種偏好,也許是錯誤的偏好。回頭看,我總希望在做應用或演示之前,先在理論層面理解一種新方法。這更多是一種研究取向的差異,有些人傾向于先嘗試,如果有效,再去發展理論,或者干脆不發展理論。比如杰弗里·辛頓(Geoffrey Hinton)就更偏向那種做法,而我恰好相反。
有時候,這種理論優先的做法可能限制了我原本可以更早嘗試的事情,但沒辦法,這就是我的思考方式。直到1990年,我建立起一個機器學習的理論框架之后,才開始把學習方法應用到各種問題上,比如計算機視覺、計算機圖形學、基因芯片中的癌癥檢測、文本分類、自動駕駛,幾乎涵蓋了今天人們仍在研究的許多方向。當時使用的主要是淺層網絡,比如徑向基函數網絡和核方法,這些90年代的技術。
保羅:那時候計算資源有限,網絡規模也更小,所以實現起來更困難。但從某種意義上說,那些方法反而更有理論基礎,是嗎?
托馬索:是的。1990年,我和一位出色的合作者費德里科·吉羅西(Federico Girosi)一起寫了一篇論文,討論了這種淺層網絡的理論。那實際上是一套關于“核機器”(kernel machines)的理論,只是當時這個術語還沒有被正式使用。在有了這套理論之后,我才開始把學習方法應用到遺傳學、視覺、圖形學等問題上。
保羅:也就是說,在有了理論之后,你才覺得可以自由地去做那些應用。
托馬索:是的。
保羅:我明白,這是你的風格。
托馬索:沒錯。從某種意義上說,我對此有些遺憾。也許后來我學到的一點教訓,和伏打的故事有關。
這只是一個比喻,不必過于字面理解。正如那句話所說,歷史不會簡單重復,但有時會以相似的方式出現。伏打與電學的這個類比,本身就值得思考。很多人或許沒有意識到,在1800年之前,也就是兩百多年前,當時正值拿破侖時代,信息傳播的速度基本上就是馬匹的速度。
在那之前,人類歷史上信息傳播從未比馬更快。有一些有趣的歷史書信,記錄了人們得知君士坦丁堡陷落時的反應。這在當時的基督教世界是一件重要事件,大約發生在1453年。人們在巴黎、維也納之間互相通信。在巴黎,有人寫信問:“你聽說了嗎?君士坦丁堡被土耳其人攻陷了。”在馬德里,也有類似的書信。那時,我們甚至可以追蹤信息傳播所花費的時間:傳到維也納用了三周,到巴黎用了四周,到馬德里用了五周。花費的時間,差不多就是一匹馬連續奔跑所需的時間。
保羅:前提是天氣還得不錯。
托馬索:是的,前提是天氣好。1800年,伏打的時代,也是拿破侖的時代。在那之前,人們對電的認識基本上只停留在閃電這樣的自然現象上。直到伏打發明了第一種能夠持續產生電流的裝置,科學家第一次可以在實驗室里系統地研究電現象。隨之而來的是一連串發現,幾乎可以說是一場科學的“雪崩”。接下來的十五到二十年里,電化學迅速發展。隨后,人們陸續提出了電學的一系列基本定律,比如歐姆定律、安培的電磁理論,法拉第發明了發電機和電動機,厄斯特揭示了電與磁之間的聯系。所有這些成果,最終在1864年達到高潮。那一年,麥克斯韋提出了著名的四個電磁方程,系統地建立起電磁學理論。
保羅:是的,他建立了一整套理論。
托馬索:這可是花了整整六十年。
保羅:而且還是按“馬車時代”的速度算的。
托馬索:是的,不過那依然是很長的一段時間。在那六十年里,在麥克斯韋出現之前,人們其實并不知道電究竟是什么。但這并沒有妨礙電動機、發電機等重要應用的發展。這正是我想說的啟示。在人工智能領域,我們今天很可能也正處在伏打與麥克斯韋之間的某個階段。只是,我們究竟走到哪一步了,很難判斷。
保羅:是的,我們現在可比馬跑得快多了。我聽你講過這個類比。不過我也聽你在別的場合提到過另一種可能:也許人工智能并不需要自己的“麥克斯韋”,也許并不一定需要一套統一理論。可你自己又在努力推動理論的發展。這兩種說法怎么協調?我很難想象你真的相信“不需要理論”。你這么說,是不是在承認某種你自己都不信的可能性?
托馬索:是的。某種程度上,我確實承認了一種自己并不真正相信的可能性。不過,我還是希望我們需要理論,而且最終也會有理論。至于它會有多完整,我不知道。但我幾乎可以肯定,它不會像麥克斯韋那樣,用四個方程就統一一切。它更可能是一組關于“智能的基本原則”。
就像分子生物學那樣。我們并沒有幾條簡單的方程來解釋生命,但我們有一些根本性的原則。比如DNA的雙螺旋結構如何復制和傳遞生物信息。這本身就是一個極其優雅的原理。我想,關于智能的理論可能也會類似。它們是基礎性原則,但未必會像電磁學那樣,形成一套高度封閉、完整的數學體系。這是我的期待。當然,也始終存在另一種可能:也許機器學習系統、大型語言模型,或者它們的繼任者,會自己發展出某種理論,而我們卻未必能夠理解它。
保羅:你剛才提到“原則”,這一點很有意思。我最近和一位神經生理學家亞歷克斯·邁耶(Alex Meyer)聊過。他最近對“整合信息理論”(Integrated Information Theory)非常著迷,認為它可能解釋意識。他之所以著迷,是因為這套理論有一整套嚴格的數學形式。它似乎讓人看到一種可能,也許我們可以為意識建立數學定律。而這種形式化的表達,往往會讓科學家特別有滿足感。
當然,進化論、分子生物學、DNA雙螺旋,這些都是重要的原則,但它們不像自然定律那樣有精確的數學表達。某種程度上,我們這些科學家似乎只有在把現象寫成數學關系時,才真正感到安心。我本來想說“簡化”,但也許更準確的詞是“形式化”。那么,你在研究學習理論和機器學習理論時,追求的也是這種形式化的原則嗎?
托馬索:我想是的。我追求的確實是原則,而且是具有數學結構的原則。
保羅:我們接下來要談的“稀疏性”和“組合性”,本質上也是原則。但要對它們作出具體而嚴謹的陳述,就必須通過定理來證明。而這正是你一直在做的事情。
那這和“形式化的數學定律”有什么區別?它們算是原則,還是定律?
托馬索:像“稀疏組合性”(sparse compositionality)這樣的原則,是一個很有意思的例子,我們稍后可以詳細討論。我們可以證明,如果一個函數,或者完成某項任務的能力,是由圖靈機在非指數時間內可計算的,那么它必然具有組合稀疏的結構。這是可以嚴格證明的。這意味著,任何運行在計算機上的系統,比如ChatGPT,都必然是組合稀疏的,因為它們本質上是在圖靈機上實現的。但這并不意味著,人腦所做的一切也都是組合稀疏的。因為我們并不知道,大腦的全部能力是否都可以被機器完全復現。大多數人相信可以,不過——
保羅:我明白,這是你的風格。你自己呢?
托馬索:我并不完全相信。這個問題我們可以稍后再談。這里還有一個關鍵點。所謂“可計算”,并不是指在理論上可以算出來,而是指“高效可計算”。也就是說,它必須能夠在合理時間內算完,而不是說要算上個宇宙年齡那么久,對吧?
所謂“合理時間”。換個說法,有些物理過程,比如混沌系統,例如天氣的形成和演化,很可能并不是“高效圖靈可計算”的。原因在于,如果你想在未來保持一個固定的預測窗口,也就是說,希望預測的時間范圍不隨著時間推進而縮短,那么你就必須以指數級的方式提高對初始條件的測量精度。從理論上講,它當然是可計算的。但它并不是“高效圖靈可計算”的。這里存在一個所謂的“可預測窗口”。順便說一句,這也許和意識的問題有關。也許意識本身并不是圖靈可計算的,就像我們無法以任意精度預測三天后的天氣一樣。
保羅:我幾乎無法想象意識是圖靈可計算的。亞歷克斯·邁耶有一個觀點。他希望在某種數學結構與“現象意識”的屬性之間建立一種同構關系,比如主觀體驗,也就是所謂的“感質”(qualia)。他刻意把意識和認知區分開來。因為認知可以被理解為函數。人工智能做的事情、神經網絡實現的計算,本質上都是函數映射。但“同構”與“函數”是兩種完全不同的概念。這之間有很大的差別。
托馬索:是的。在我看來,你有一類函數,它們本質上是可組合的,也能被計算機計算;而另一類函數則太復雜了,沒辦法在合理的時間內算出來。
保羅:學習本身也是一種函數。自從你把“學習”作為第四個分析層級提出之后,它是不是就成了你長期關注的核心問題?你幾乎一直在研究它。我真正想問的是,這些年你對“學習”的看法有沒有發生變化?有沒有哪些你過去深信不疑、現在卻不再認同的觀點?還是說,你的思路一直都是穩步推進,并沒有大的轉折?
托馬索:我一直認為,學習是真正通向智能的大門。改變的,其實不是我對學習重要性的看法,而是計算機科學界對它的態度。很長一段時間,我一直在對計算機系的同事們說,學習至關重要。但大概是在2010年左右,他們才開始認真聽我說,至少在麻省理工學院是這樣。
保羅:他們為什么不愿意接受?當時的癥結在哪里?
托馬索:這個問題很有意思。其實,如果從歷史上看,這種情況是有有跡可循的。自1950年代左右計算機科學形成以來,這個領域的基本研究范式一直是“編程”。
保羅:算法,以算法為核心的編程。
托馬索:對。你告訴計算機該做什么。哪怕任務再復雜,本質上也是由人來寫程序、給出明確的指令。研究者的職責,就是寫出一個足夠聰明的程序。這種模式大概一直持續到2000 年前后,甚至2010年左右。但如果看看今天的計算機科學,它已經完全變了。幾乎所有方向都圍繞機器學習展開。過去,編譯器、程序語言、機器人、計算機視覺、自然語言處理,這些都是彼此獨立的領域,各自為政。現在幾乎都被機器學習統一了。早在1990年左右,我就說過,機器學習會成為計算機科學的“通用語言”。只是,這個轉變確實花了很長時間。
我記得在1980年代,我們在麻省理工學院已在使用電子郵件。那時我還擔任一家很有意思的小公司的顧問,這家公司叫“思維機器公司”(Thinking Machines)。他們開發了一種叫“連接機器”(Connection Machine)的超級計算機,內部有一百萬個非常簡單的處理單元。當時我是他們的企業研究員。另一位企業研究員是理查德·費曼(Richard Feynman)。
保羅:你的老朋友嗎?
托馬索:對,還有史蒂芬·沃爾夫勒姆(Stephen Wolfram)也是。
當時公司里還有幾位同樣很有意思的人。那時候,在我看來,電子郵件顯然是未來的發展方向。但人們又過了整整15年才真正停用傳真機。
保羅:上個月我還被迫發了次傳真,我完全搞不懂為什么還要用這玩意兒。
托馬索:當時我基本都放棄電子郵件會普及的希望了,結果它當然還是來了。
保羅:到那時,你可能已經開始用Slack*之類的工具了吧。神經網絡其實一直都在。PDP學派,也就是“并行分布式處理”那一批研究者,多年來一直在強調學習的重要性。問題在于多層網絡的訓練,尤其是反向傳播算法(backpropagation),曾經被認為太慢、效率不高。當然,情況在2012年發生了改變。那一年,在ImageNet數據集上的突破顯著降低了錯誤率。所以,并不是神經網絡不存在,而是它們真正發揮威力,經歷了一個漫長的過程。
*譯者注:Slack是一種企業內部即時通訊與協作工具,在科技公司和研究團隊中被廣泛使用。
托馬索:神經網絡確實一直存在。但我當時是個懷疑者。從某種意義上說,我錯了。
保羅:錯在哪兒?
托馬索:在神經網絡的問題上。我當時主要使用的是淺層神經網絡,而不是深度網絡。因為在2008年,甚至2010年之前,淺層網絡的表現其實并不比深度網絡差。這牽涉到另一個話題,就是技術如何影響思想。我們常常以為,是理論和算法推動了技術的發展。但很多時候,恰恰是當下的技術條件決定了我們能做什么。什么是可行的,什么是容易實現的,什么又太困難。這些都會在很大程度上影響我們提出什么樣的理論,以及采用什么樣的算法。
保羅:是的,楊立昆也曾強調過這一點。歷史上這樣的例子太多了。
托馬索:沒錯。我記得大約在1999年左右,我坐過一輛梅賽德斯在德國斯圖加特測試的自動駕駛汽車。
保羅:真的假的?
托馬索:是的。那輛車當時可以在斯圖加特市中心狹窄的街道上自動行駛。當然,駕駛座上還是有一位司機,雙手幾乎貼著方向盤,以防萬一。后備箱里塞滿了計算機設備。我記得,當時有一場為期三天的自動駕駛研討會,只邀請相關人員參加。最后半天出席的是律師。研討會結束時,戴姆勒·奔馳的管理層就拍板了:“不搞自動駕駛了,砍掉這個項目。”
保羅:我剛想說兩件事。第一,我敢打賭,那輛車的計算系統里肯定沒用上福島邦彥(Kunihiko Fukushima)的“新認知機”模型。
托馬索:怎么會?不,其實用到了,因為我們當時做的基本上就是類似的東西。比如,我們訓練了一個行人檢測系統。當時只用了大約200個樣本。以今天的標準來看,這幾乎難以想象。從科學研究的角度講,那個系統表現得相當不錯。但從實際應用的角度看,它每十秒鐘大約會出現三次錯誤。雖然按幀數計算,錯誤率其實并不算高,遠遠不到每一幀都出錯。但在真實駕駛環境中,這樣的錯誤頻率顯然是不可接受的。無論如何,它都還談不上真正可用。
保羅:托馬索,交個底吧,那天你們到底“撞”了多少人?
托馬索:沒有撞到真正的人啦。
保羅:我還以為你會說,最后他們承諾“五年內就能實現自動駕駛”,因為科技圈的承諾永遠都是“再過五年”。結果你卻說他們直接說“不搞了”,看來律師確實起了作用。
托馬索:總之,戴姆勒公司內部終止了這個項目。其實挺可惜的,當時他們確實走在最前沿。只是時機太早了。
保羅:你剛才說那輛車,是在1999年左右?
托馬索:差不多吧。也許是1997年左右。
保羅:我讀過你的自傳。當然,在那之前我也已經了解了你很多研究工作。你在書里提到,自己在1980年代初期就開始做目標識別的研究,也就是在當時的場景里,檢測行人或物體。這顯然和神經網絡中的學習問題密切相關。你當時曾懷疑,休伯爾(David Hubel)和維澤爾(Torsten Wiesel)提出的“簡單細胞”和“復雜細胞”模型,是否真的能夠通過層級組合構成對物體的表征。后來你承認自己錯了,并發展出HMAX模型,也就是基于層級結構的目標識別系統。那段時間,你是怎么理解“學習”這個問題的?
托馬索:在那個時候,我們所謂的“學習”,其實只發生在最后一層。前面的層級結構負責做特征處理,但這些特征并不是通過復雜的學習得到的,而是用一種很簡單的方式構建出來。比如,從圖像里隨機取一些局部片段作為特征。真正的學習,主要是訓練分類器的權重,也就是網絡最后一層的參數。
保羅:明白了。
托馬索:原因在于,我當時真的不相信“反向傳播”在生物學上是合理的。
保羅:你這個懷疑是有道理的。
托馬索:從某種意義上說,我當時是對的。但在機器學習的實踐層面,我又是錯的。我當時是被這個“生物學約束”給絆住了。現在,我們開始有一些新的想法。從神經科學的角度看,這些模型似乎更合理。當然,我不知道它們是不是對的,這還需要實驗來檢驗。但至少,是有可能的。
它未必是嚴格意義上的反向傳播。更像是一種更一般形式的梯度下降。而這種機制,也許可以通過神經元連接的自組織方式自然實現。聽起來有點神奇,但未必真的那么神奇。我覺得,這是神經科學里一個非常關鍵的問題。因為如果我們真的能在大腦里找到某種與反向傳播等價的機制,那神經科學和機器學習之間就會建立起一種非常深的聯系。到那時,我們就可以看著具體的神經回路、突觸結構,說:“哦,這里正在發生這樣的計算。”
保羅:這算是個題外話,我稍微跳一下話題。你剛才提到自己在做一些自組織、具備生物可行性的可塑性網絡模型。其實這些年也有不少研究在嘗試提出“生物學版本”的學習機制,希望在功能上復現反向傳播。已經有好幾種概念驗證方案了,只是它們在多大程度上真正模擬了反向傳播,效果各有不同。
我最近讀了你的一篇論文,里面幾乎全是深度學習理論的術語。我心里在想,“天哪,我也算懂一點,比如流形之類的概念,可一旦進入那些技術細節,就有點跟不上了。”你顯然已經完全沉浸在那個世界里。所以我很好奇,你平時思考問題時,更多是在機器學習的框架里思考,還是在生物學習的框架里思考?如果這兩者可以區分的話,你的大腦大概是怎么分配的?
托馬索:很長一段時間里,大概是五五開。但在過去五年左右,我可能稍微更偏向人工神經網絡這一側。
保羅:是因為那里的數據更充足,更方便做驗證嗎?
托馬索:也不完全是,不單純因為數據。更主要的原因是,我一直被一個問題困擾:我們到底需不需要一套真正的理論?這兩三年來,我越來越覺得,自己可能抓到了一些原則。當然,我并不認為它們是最終答案,更談不上是最關鍵的原則。但至少,它們看起來像是理解人工機器學習系統時繞不開的一部分。
![]()
為什么淺層理論不夠?
深度與組合結構的必要性
保羅:那我們現在就來談談這些吧。“稀疏組合性”是你目前關注的核心原則嗎?
托馬索:它是其中之一。對我來說,它確實解決了一個長期困擾我的問題。正如我之前提到的,我總是需要對正在發生的事情至少有一個理論上的輪廓性的理解。大約在2003年左右,我和一位非常著名的數學家史蒂芬·斯梅爾(Stephen Smale)一起,為美國數學學會寫了一篇關于機器學習的綜述文章。在那篇文章中,我們比較系統、也相當完整地梳理了淺層網絡、核機器等模型的理論基礎。
當時在討論部分,我專門寫了幾段文字,談到一個讓我始終想不通的難題。按照當時的理論框架,淺層網絡已經足夠表達我們關心的函數,并不需要多層深度結構。可是從生理學角度看,例如視覺皮層的結構,卻明顯是多層級組織,而且這些層級似乎具有功能上的重要性。于是問題就出現了。既然淺層理論已經足夠,為什么大腦卻是分層的。深度到底有什么必要性。這個問題讓我卡了很久。在真正愿意去接受并應用深度網絡之前,我始終沒有想明白這一點。后來我逐漸意識到,“稀疏組合性”很可能正是這個謎題的答案,同時也解釋了其他類似的問題。
保羅:我可以想象兩種路徑。一種是,你先訓練深度網絡,然后去觀察它們的內部表征,從這些表征中總結出某些結構性的規律。另一種是,你從一個更偏理論、更強調原則的角度出發,先思考哪些結構特征在原理上應該是重要的。你的想法是怎么形成的?
托馬索:更接近第二種方式。這個想法最初其實是為了回答另一個相關的問題,那就是,為什么卷積神經網絡似乎明顯優于全連接網絡。在卷積網絡中,就像視覺皮層一樣,每個神經單元只接收一小部分輸入,而不是連接到所有輸入。舉個簡單的例子。假設你有大量感光受體,也就是視網膜上的光感受器。第一層中的每一個單元,只會“看到”其中一個很小的局部區域,而不是整個輸入圖像。
保羅:也就是一個小的局部區域。
托馬索:對,就是局部區域。于是我開始思考這樣一個問題。假設我們有一個多變量函數。為了簡單起見,我們設它有八個輸入變量,記作X1、X2、一直到X8。現在再設想,這個函數并不是一個“整體式”的函數,而是具有某種層級結構。也就是說,它是“函數的函數的函數”。例如,我們先定義一個關于X1和X2的函數。再定義另一個關于X3和X4的函數。接著,再定義一個函數,把前面兩個函數的輸出作為輸入。依此類推。從結構上看,它就像一棵二叉樹。最底層是八個輸入節點,而每一個上層節點,都是由兩個變量,或者兩個子函數的輸出,組合而成。
這個結構,可以看作是卷積神經網絡的一種“玩具模型”。這里卷積本身并不是關鍵。所謂卷積,就是權重在平移下保持不變。但真正重要的,是這種“局部組合”的結構。如果我們考慮一個普通的八變量函數,在一般情況下,就會遇到所謂的“維度災難”(curse of dimensionality)。換句話說,為了逼近這樣一個函數,你所需要的參數數量,往往會隨著變量數量呈指數級增長。而指數級增長,在計算上是災難性的。
保羅:如果這些變量彼此獨立,沒有高度相關性,那就是最糟糕的情況。
托馬索:沒錯。函數的平滑性在某種程度上可以緩解這個問題,但根本的困難還是會出現。舉個例子,如果我們有一個包含一千個變量的函數(其實這并不算多),一張32×32的小圖像就大約有一千個像素。現在設想,我們要逼近一個關于這1000個像素的函數,并允許大約10%的逼近誤差。在一般情況下,你可能需要大約101000個參數。這是一個極其巨大的數字。作為對比,宇宙中質子的總數大約是1080。
保羅:我就知道你會用電子或者質子的數量來做類比。一旦參數數量超過宇宙中質子的總數,那肯定不是個好兆頭。
托馬索:但如果這個函數具有我剛才說的那種結構,也就是“函數的函數”的層級結構,情況就完全不同。我們最初稱之為“層級局部性”,現在更準確的術語是“稀疏”。所謂“組合稀疏”,是指整個函數是由多個子函數組合而成,而每一個子函數只依賴于少量變量。
保羅:這里的“稀疏”是一個精確定義的概念嗎?還是只是一個方向性的說法?比如,稀疏是不是意味著變量少于三個?還是說只是相對而言比較少?
托馬索:它首先是一個方向性的概念。不過考慮到指數級復雜度帶來的后果,我會給出一個數量級上的判斷。比如在二值變量的情況下,“稀疏”大致意味著每個子函數所涉及的變量數量少于40個。
保羅:明白了。
托馬索:如果是非二值變量,那么這個數量級大概在14個左右。
保羅:那這顯然是非常稀疏了。
托馬索:是的。
保羅:那么,“稀疏”是一方面。你剛才說“函數的函數”,那既是“組合”的含義,也是“層級”的含義。你能區分一下“層級性”和“組合性”嗎?
托馬索:嚴格來說,兩者并沒有實質差別。我認為它們只是不同的說法。我更喜歡“組合”這個詞,因為我們討論的是函數的組合,也就是函數的函數的函數。這個概念在很多領域都會出現,比如語言學中的“組合性”。意思是,我們可以用簡單的基本單元,構建出更大的結構、更豐富的意義。諾姆·喬姆斯基強調過這一點。赫爾曼·馮·亥姆霍茲(也曾指出,語言的力量在于能夠用有限的簡單元素生成無限復雜的表達。但更有意思的是,這種能力并不只屬于語言。它實際上是所有能夠被高效計算的函數所共有的一個性質。
保羅:也就是說,這是必然的。
托馬索:是的,必然如此。
保羅:那么,這里的瓶頸究竟在哪里?關鍵點是什么?關鍵在于函數本身嗎?如果從進化的角度來想,進化是如何“找到”那些能夠在這種稀疏組合結構中高效協作的函數的?聽起來這像是一個非常精細、甚至有些脆弱的系統,但我們知道大腦其實是高度穩健的。是否問題的關鍵在于,你必須選對那些函數?而且無論如何,這些函數仍然需要通過學習獲得。
托馬索:這個問題非常有意思。我不確定這算是一種沖突,還是說是一條分界線,但它確實揭示了經典數學和計算機科學之間的一種差異。在經典數學中,我們通常是先定義一個函數空間。這個空間具有某些性質,比如不同形式的平滑性,或者滿足若干階導數存在等條件。函數是在這樣的抽象空間里被研究的。而在計算機科學中,思路完全不同。計算機科學里,每一個函數都是由少量基本原語構造出來的。你從“與”、“或”、“非”這些最基本的邏輯操作開始,然后通過不斷組合,構建出越來越復雜的函數。在這里,“組合”本身就是一種基本操作。因此,對計算機科學家來說,組合性并不是某種偶然的演化結果,而是所有能夠被計算的函數必然具有的結構特征。
保羅:明白了。
托馬索:對數學家來說,這個觀點會更難接受,這并不是他們熟悉的那套思維方式。
保羅:我差點忘了,我們現在是在計算機科學的地盤。一切最終都要回到布爾邏輯,對吧?
托馬索:是的。事實上,在我為一個包含28篇文章的理論文集撰寫的論文中,有一篇就專門討論一個問題:“實數是否真的存在?”這并不是一個玩笑式的問題。因為一旦我們談到圖靈可計算性,原則上講,任何一個數最終都必須被表示為布爾變量,也就是0和1的有限或無限序列。哪怕這個序列非常非常長,本質上它仍然是由布爾值構成的。
從計算機科學的角度來看,實數并不是一個真正“存在”的對象。如果你去看看數學的基礎,支撐實數的“連續統假設”,對于基礎數學來說也并不是非有不可的。即便放棄完整的實數連續統,我們在很多基礎數學結構中也不會損失太多。當然,有些實數是可計算的,比如π或e。但還有大量實數是不可計算的。從某種意義上說,那些不可計算的實數更像詩歌。它們在概念上是存在的,卻無法被真正寫出來、算出來,或在計算機中實現。
保羅:換句話說,毫無用處。
托馬索:在計算意義上,毫無用處。你沒法拿它們做實驗,什么都干不了。
保羅:好吧,我們剛才講到哪里了?我們有一組稀疏的組合結構。那么,你究竟證明了什么?
托馬索:我們證明的是這樣一個命題:任何“高效可計算”的函數,也就是說,能夠在非指數時間內由圖靈機計算完成的函數,在結構上必然具有組合稀疏性。換句話說,這樣的函數一定可以被分解為若干子函數的組合,而每一個子函數只依賴于少量變量。也就是說,每一層都是“稀疏”的。而且,這種分解方式并不是唯一的。對于同一個函數,往往存在許多不同的分解結構。如果把這種分解推到極端,你可以得到一個非常深的層級結構,由最簡單、最基礎的函數逐層組合而成。最終,這些最基本的操作可以還原為布爾邏輯中的“與”、“或”、“非”。從理論上講,任何圖靈機程序,都可以在數學上等價地轉化為一個布爾函數。因此,只要一個函數是高效圖靈可計算的,它就必然可以表示為由若干低維、稀疏子函數組成的層級結構。
保羅:那么,從學習的角度來看,如果一個函數確實具有這種由稀疏子函數構成的層級結構,那么學習這些基本的布爾運算及其組合方式,在理論上就不會帶來指數級的計算負擔,對嗎?
托馬索:是的。關鍵在于,如果我能夠獲得每一個子函數的輸入與輸出數據,那么每一個子函數本身都是容易學習的。可以用一個多層神經網絡來類比。通常,我們只有整個網絡的輸入,以及整個網絡最終的輸出。只憑這兩端的數據進行訓練,確實可能很困難。但如果我能夠獲得中間層的數據,也就是說,我不僅知道整體輸入和整體輸出,還知道每一層的輸入與輸出,那么每一層都可以被單獨、高效地學習。既然每一個子函數都容易學會,那最終組合起來的整體函數,自然也就學會了。
這也是Transformer模型之所以有效的原因之一。它的“魔力”在于采用了自回歸訓練框架。模型不是被要求讀完整本書,然后只預測最后一個字、最后一個詞,或者最后一句話。它的訓練方式是這樣的:給定前面的詞,預測下一個詞。然后把預測得到的結果加入上下文,再繼續預測下一個詞。換句話說,它不斷在學習局部的子任務。每一步,其實都類似于在學習一個小規模的子函數。
保羅:明白了。
托馬索:這樣一來,我就可以預測下一個詞,再把新生成的詞加入到當前序列中,繼續預測下一個詞,如此循環。
保羅:也就是說,你預測出來的那個詞,會被納入新的上下文,然后再用它去預測接下來的詞?
托馬索:正是如此。
![]()
從維度災難到可泛化:
為什么“少參數”意味著“能泛化”
保羅:我們還是回到機器學習本身。來談談泛化能力吧。我知道你很關心這個問題。既然深度網絡的優勢在于能夠表達這種“稀疏組合”的結構,那么這種結構對泛化能力意味著什么?
現在的大多數機器學習任務都非常“狹窄”。而且還有一個著名的難題,叫做“持續學習”。模型在某個任務上訓練完成后,一旦轉向新的任務,往往不得不重新學習,甚至會遺忘之前掌握的知識。真正難得的是“泛化能力”。那才是人工智能追求的目標,是彩虹盡頭的那一罐金子,是所有人都想找到的寶藏。那么,這種稀疏的組合結構,究竟如何幫助我們理解泛化?它和泛化能力之間到底有什么內在聯系?
托馬索:這種結構,對整個機器學習框架都至關重要。當前主流的機器學習范式,大致可以這樣描述。假設我面對的是一個未知函數。以ImageNet為例。我希望完成圖像分類任務,一共有1000個類別。我需要一個函數,把一張200×200的圖像映射到1000個類別中的某一個。也就是說,把大約4萬個輸入變量映射到一個類別標簽上。但問題在于,我并不知道這個函數的真實形式。我手里只有訓練數據,也就是輸入圖像,以及對應的正確類別標簽。訓練集中包含大量這樣的樣本對。我的任務,就是根據這些樣本去逼近那個未知函數。
在這個框架下,我需要使用一個足夠強大的通用工具,來逼近這個未知函數。“稀疏組合性”這一原則告訴我們,你應該用的通用工具就是深度網絡。之所以強調“深度”,是因為只要一個函數是可計算的,它就可以表示為若干子函數的組合。深度結構正是這種組合形式的自然表達。這是數學上的結論,也是理論的核心信息。理論還給出了一個重要的保證。假設你擁有一個多層網絡,并且能夠成功完成優化,那么你的任務就是調節網絡中的參數。可以把這些參數想象成許多旋鈕,比如十萬個旋鈕。你需要不斷調整這些旋鈕,使網絡在訓練集上的輸出盡可能逼近那個未知函數。換句話說,你要調節參數,讓網絡在訓練數據上實現正確分類。
保羅:弗蘭克·羅森布拉特(Frank Rosenblatt)當年確實是用手去擰那些旋鈕的,不過我明白你說的是現代意義上的“調參數”。
托馬索:是的。理論告訴我們,你不需要無窮多、也不需要指數級數量的“旋鈕”。如果函數具有稀疏組合結構,那么所需的參數數量就不會呈指數增長,而是控制在一個非指數級的規模內。這個結論非常重要。它不僅意味著我們能夠有效地逼近復雜函數,更關鍵的是,它為泛化能力提供了保證。本質上,這里存在一種權衡關系。背后當然是數學推導,但直觀地講,如果一個函數可以用相對較少的參數來表示,那么模型不僅能夠擬合訓練數據,還更有可能在未見過的數據上表現良好,也就是實現泛化。
如果你使用一種需要極其龐大甚至無限參數數量的方法,就會面臨兩個問題。第一,你在計算上根本無法處理例如101000這樣規模的參數。第二,你將無法實現泛化。你只是簡單地擬合了訓練數據。
保羅:也就是說,如果模型參數過多,本質上就會發生過擬合。
托馬索:沒錯。不過這個問題比較微妙,需要更深入地討論“過參數化”究竟意味著什么。因為今天的神經網絡確實是過參數化的,它們的參數數量往往超過訓練數據的樣本數量。但關鍵在于,如果沒有“稀疏組合性”帶來的理論保證,所需的參數數量會大得多。那樣的話,幾乎不可能實現我們現在所看到的這種效果。
保羅:我明白了。剛剛我突然想到一個類比。是不是可以把這種函數結構看作處在兩個極端之間?一端是傳統的符號人工智能。那里有清晰分離的模塊,各自執行特定功能,并彼此通信。另一端則是極其底層的實現方式。每一個神經元就像一個簡單的邏輯門,執行非常基礎的操作,而整個系統的能力來自于這些簡單單元的大規模組合。從某種意義上說,這些結構是不是可以理解為一簇簇布爾函數節點的組合,只是它們以更加連續、分布式的方式組織起來。我這樣理解對嗎?
托馬索:可以這樣理解。或許最清晰的方式,是回到那棵二叉樹的類比。最底層是輸入節點,最頂端是一個輸出節點。隨著結構向上延伸,寬度逐層減少。這有點像視覺皮層的第一層神經元,每個神經元只關注圖像中的一個局部區域。接著,在上一層的神經元中,每個單元會接收并整合第一層神經元的輸出。
保羅:上一層的單元數量會減少一半,對嗎?
托馬索:是的。
保羅:也就是說,上層的維度比下層更低?
托馬索:正是如此。這個過程可以不斷向上推進。每一層神經元讀取下層神經元的輸出,并將整合后的信息傳遞到更高層。隨著層級上升,單個神經元的感受野會越來越大。這與視覺皮層的組織方式高度相似。在V1區域,神經元的感受野非常小。到了V2和V4,感受野逐漸擴大。而在IT區域,神經元可以整合更大范圍的視覺信息。
![]()
從AI到大腦:
組合性是否存在于真實神經系統?
保羅:你說“大致相似”,我也覺得只能說是“大致”。不過我還想問,你認為這個理論結果在理解真實的大腦時到底有多大意義?它真的適用于生物大腦嗎?
托馬索:首先,我并不確定。這是一個開放的問題。
保羅:但我知道你很在意這個問題。
托馬索:我當然關心這個問題。我的意思是,從數學角度來說,我可以非常確定地告訴你,像ChatGPT這樣的系統,以及所有運行在計算機上的類似系統,都必須具備“稀疏組合性”。凡是能夠在計算機上高效運行的系統,都必然具有這種結構。這一點幾乎是邏輯上的必然。
但對于人類大腦,我無法給出同樣確定的結論。我猜測,大腦的某些功能,例如語言、數學,以及其他一些明顯具有結構性的認知能力,本身就表現出強烈的組合特征。它們似乎天然符合這種層級分解的形式。但也可能存在另一種情況。比如進化上更古老的腦區,例如我們魚類祖先所具有的中腦結構,或者像基底節這類深層腦結構,那里也許并不存在明顯的模塊化,也未必體現出清晰的組合結構。是有這種可能的。
保羅:是的,比如說,如果基底節只是起到“增益調節”的作用,那它本身可能就不需要那種組合結構。
托馬索:也許確實不需要。也許我們甚至無法高效地模擬它。這種說法多少有點科幻意味,只是一種理論上的可能性。我并不是在斷言這一點。就我個人而言,我并不認為大腦中存在某種功能是完全無法用計算機程序描述的。但我也承認,這種可能性在邏輯上不能被徹底排除。
保羅:目前還沒有定論。你大概更傾向于認為,真正與智能密切相關的是大腦皮層,對嗎?換句話說,人工智能主要是在模擬皮層功能。
托馬索:我認為,大腦皮層很可能具有明顯的組合結構,因此也更容易在計算機中加以模擬。至于大腦的其他部分,就未必如此。這其實有點諷刺。按照直覺,那些在進化上更古老、結構看起來更簡單的腦區,反而可能更難被模擬。
保羅:目前也沒有跨物種的證據,能夠證明這種組合結構確實存在于大腦中,對嗎?
托馬索:沒有。
保羅:我還想問一個問題,物理學之所以成功,很大程度上依賴于理論與實驗之間的持續對話。理論家提出假設,實驗者去驗證,然后再反過來修正理論。在你這種情況下,作為一個偏理論的人,你會主動去尋找實驗驗證嗎?你會不會去說服實驗學者,比如說,“我需要這組數據”,或者“看看我的理論,大腦里有沒有這樣的結構”?你通常是如何推進這種合作的?
托馬索:我在職業生涯中一直在這么做。只是最近幾年可能少了一些。我至今都忘不了那種興奮感。有一次,我對果蠅的行為提出了一個理論預測,其實是一個相當簡單的預測。后來實驗做出來,結果竟然完全符合——
保羅:天哪。那種感覺一定非常震撼吧。
很多理論學者都會有一種感覺:理論在邏輯上是成立的,所以它“必然”是正確的。對理論本身,他們已經建立起一種高度的信心。但真正看到理論在現實世界中被驗證,看到實驗結果與推導嚴絲合縫地對應,那又是完全不同層次的體驗。
托馬索:沒錯,正是這樣。這種體驗很有意思,而且是分層次的。雖然我不是數學家,也算不上優秀的數學家,但有幾次我確實證明過一些結果,那種感覺確實令人興奮。但當實驗真正驗證了你的理論,那種興奮是完全不同的。
保羅:我其實有很多問題想問,所以在對話過程中一有機會就忍不住插進來。你覺得,誰更需要深度學習理論?是那些構建人工智能系統的機器學習工程師,還是試圖解釋大腦機制的神經科學家?
托馬索:如果你去問OpenAI這樣的機構里的頂尖研究人員,我相當確定,他們大概會說,我們并不需要理論。
保羅:聽到他們這么說,你心里是什么感覺?
托馬索:我想......大概已經習慣了吧。
保羅:以你的經歷,完全可以說一句:“再過二十年你們就知道了”
托馬索:是啊。不過你永遠不知道歷史會不會重演。
保羅:也是。
托馬索:而且這次情況非常特殊,我們研究的對象本身就是“智能”。所以有時候我也會擔心,也許理論真的會從此消失。
保羅:那不可能吧。
托馬索:我的立場更像是很多年前布萊茲·帕斯卡(Blaise Pascal)提出的那個“賭注”,所謂的“帕斯卡賭注”。帕斯卡認為,從理性角度講,更合理的選擇是押注“上帝存在”,并據此行事。因為如果你押錯了,假設上帝不存在,那損失有限;但如果你押的是“上帝不存在”,而事實上存在,那代價就是無限的,比如你將要永遠下地獄。
保羅:不過帕斯卡賭的是“永恒”。而你有這么長一段成功的經歷和成果積累,我想你大概會比帕斯卡更有底氣一點吧。
托馬索:是的。我主要的觀點其實是:去賭一個超級智能會在短短三五年內接管我們,這毫無意義。更理性的賭注是,我們還有相當長的一段時間可以和機器合作,提升我們的智能,看看我們能一起做些什么。至于所謂的通用人工智能是否會“接管”,即便真的會發生,那也至少是很多年以后的事,甚至未必會發生。
保羅:我其實不太相信AGI是一個明確存在的東西,不過那是另一個話題了。倒是宣稱AGI即將到來這件事,確實很賺錢。
托馬索:是的。不過從經濟角度看,這種敘事其實也有些風險。說實話,在我的職業生涯中,真正讓我震驚的時刻,并不是 ImageNet。2012年深度網絡在ImageNet分類任務上的成功,當然非常重要,它們比之前的方法提升了大約20%,這已經是巨大的進步,但這種改進本身并沒有讓我特別驚訝。真正讓我感到震撼的是2017年。后來我逐漸意識到Transformer模型,以及最終出現的 ChatGPT,才是更大的突破。直到今天,我依然對大語言模型的能力感到驚嘆。即便它們并不像我們人類那樣思考,它們依然非常強大。
保羅:確實,它們強得驚人。
托馬索:從圖靈測試的標準來看,它們當然可以被稱為“智能”。在人類歷史上,這是第一次,我們不僅擁有自己的智能,還面對另一種智能形態。而且它們與我們不同。這對我們來說,是一個非常難得的機會,我們可以去研究:什么是共通的,什么是不同的。這有點像研究不同物種的基因組,比如果蠅(Drosophila)的基因組,或者秀麗隱桿線蟲(C. elegans)的基因組。通過比較不同物種的基因,我們對自身基因的功能有了更深的理解。同樣地,研究這些不同形態的智能,或許也能幫助我們更好地理解人類自己的智能。
保羅:剛看到大語言模型時,我的反應其實是:“哦,又一次技術進步而已。”以前大家也曾為循環神經網絡興奮過,也為LSTM興奮過。而且幾乎每一次,當一種新模型橫空出世并帶來巨大希望時,神經科學界總會有不少人說:“啊,現在大腦就是玻爾茲曼機。”或者“現在大腦是卷積神經網絡。”如今又變成:“大腦就是大語言模型。”這到底是怎么回事?為什么我們這么容易就被帶著跑?
托馬索:早些年也有類似的“風潮”。那時甚至有人認為,大腦不過是一種流體力學系統。
保羅:這聽起來可不太光彩。我自己就是神經科學家,這多少有點尷尬。每次新技術出來,我都會在心里想:“好吧,又來了。”結果卻常常被打臉。有些突破確實讓我始料未及,比如大語言模型,我當時真的是沒預料到。
托馬索:很多人一樣,我也是等到ChatGPT出現之后,才真正意識到這種能力的強大。這是第一次能夠和它自然對話。那一刻我才意識到,事情變得不一樣了。
保羅:而且更有意思的是,我們幾乎毫不費力就把它融入到日常生活了。至少對我來說是這樣,我猜大多數人也是。它并不像一個完全陌生的技術,反而特別自然,好像一下子就嵌進了日常。我想,這本身就是它最令人震撼的地方之一。
托馬索:而且在某種直覺層面上,我們也逐漸摸索出它能為我們做什么、能信任它到什么程度,以及如何更好地駕馭它。
保羅:不過在這方面,每個人的“使用能力”確實不一樣。有些人會更天真一點,也更容易輕信。但如果把它當成工具來看,天哪,真的太厲害了。它作為工具的價值,簡直驚人。
托馬索:確實,非常了不起。
保羅:我剛才還在為自己、為神經科學家們感到尷尬,不過回到幾分鐘前的那個問題:到底是神經科學家更需要深度學習理論,還是搞機器學習的人更需要?神經科學家真的需要這個嗎?
托馬索:我認為需要。正如你剛才說的,把大腦簡單地等同為一個Transformer模型,是沒有意義的。
保羅:完全說不通。
托馬索:如果我們能夠理解Transformer所有的那些基本原則,那么這些原則本身,理論上也可能被大腦所采用,只是形式可能完全不同。當然,大腦并不一定真的在使用 Transformer。但如果我們談的是原則,而不是某種具體的工程實現,那么它完全可以通過一種截然不同的方式存在。比如,大腦是否也在某種意義上利用了“組合稀疏”的結構,或者是否存在類似自回歸機制的過程。這樣一來,我們至少可以提出一個更合理的問題:大腦是否運用了類似的原理?
保羅:抱歉打斷一下。不過這有點像那個笑話:有人在路燈下找鑰匙,因為“那兒有光”。我們會不會只是因為Transformer在那里發光,所以才從這個方向去理解大腦?那么,組合稀疏性在分析層級框架中屬于哪一層?它不是一個具體算法,而是一種原則。那原則應該放在哪個層面?
托馬索:這是個很有意思的問題。我想,它大概應該歸入“學習理論”這一層。
保羅:那可是一個很大的范疇。
托馬索:是的,確實很大。
保羅:關于理論的作用,你剛才提到,我們現在可能處在伏打和麥克斯韋之間的階段。其中,你談了電池發明之后涌現出的各種應用和創新,但沒有談麥克斯韋之后發生的事情。那是一個真正改變局面的時刻嗎?我們真的需要麥克斯韋嗎?如果沒有那套理論,技術會不會照樣發展?我們到底需不需要理論?
托馬索:我覺得麥克斯韋之后發生的很多事情,正是因為麥克斯韋才成為可能。無線電、電視、雷達、互聯網,以及制造電子元器件的能力,這些都離不開電磁學理論。當然,不只是麥克斯韋個人,而是整套電磁理論體系。理論讓我們不僅能夠理解電動機、發電機這些已經出現的技術,還能把它們優化、推廣、系統化。更重要的是,它打開了全新的可能性,催生了后來的一系列技術革命。換句話說,理論不僅僅是解釋已有成果,它本身也創造了新的空間。
![]()
流形還是組合?
不同理論的解釋力與進化視角
保羅:咱們這話題其實已經跑偏又繞回來好幾回了,不過還是得回到“組合稀疏性”上。在你最近發在arXiv上的那篇論文里,你把這個原則和其他一些替代原則做了對比。其中一個就是“流形學習”。現在在神經科學領域,關于“流形”的說法幾乎無處不在。很多現象都被解釋為存在某種低維流形結構。如果偏離這個流形,學習就會變得困難。
越接近原有流形結構,學習速度就越快,類似這樣的觀點。你能解釋一下,“組合稀疏性”和“流形學習”之間的區別嗎?為什么你更傾向于把前者視為一個更基礎的原則?當然,也許我這樣表述本身就不夠準確。
托馬索:是的。我認為這其實是同一種現象的兩種不同視角。當你談論函數的組合時,也可以把它理解為用更簡單的片段逐步構造一個流形。就像視覺系統中那樣,早期神經元先處理局部圖像片段,然后這些局部片段被進一步組合,逐漸形成更復雜、更大尺度的視覺流形結構。我還沒有系統地推導兩者之間的嚴格數學關系,但直觀上看,它們之間幾乎存在一種一一對應的映射關系。
它們的區別更多體現在語言層面。正如我之前提到的,在經典數學中,人們談論的是“結構”,例如流形。構造流形時,需要以某種平滑的方式把不同部分拼接起來。從本質上講,這等價于在空間的不同區域定義不同的函數,并通過某種規則把它們組織在一起。這正是組合稀疏性的思想。我認為,兩種說法在核心結構上是等價的。
保羅:那么組合稀疏性是否意味著,或者說是否要求,任意局部區域內都存在一個平滑的歐幾里得空間結構,就像流形理論所要求的那樣?
托馬索:是的。在局部區域內,這個流形只依賴于高維空間中的一部分變量。而在其他區域,它可能依賴于另一部分變量,或者與前者部分重疊的變量。
保羅:既然你一直關注學習這個問題,你是否會把進化看作一種極其緩慢的學習過程?
托馬索:這是一個很有意思的問題。確實有一些不錯的嘗試,把進化理解為一種學習過程。其中之一是萊斯利·瓦利安特(Leslie Valiant),他是一位杰出的計算機科學家,也是我的朋友。他曾寫過一篇文章,把進化看作一種學習機制。從某種意義上說,它確實像你所說的,是一種更為緩慢的學習。不過,我認為事情可能比這更復雜一些。在學習過程中,你通常是在一個既定的解空間或假設空間中進行探索。人們常常稱之為“假設空間”。也就是說,你事先限定了可能的函數集合,然后從中尋找最合適的那個。
在機器學習中,例如你選定了某種核方法,比如高斯核,那么你實際上就在一個特定的函數空間內搜索。訓練的過程,就是在這個空間中找到最符合數據的函數。而進化的情況可能不同。它未必只是從一個固定的函數空間中進行搜索。它可能是在塑造不同的函數空間本身。換一種說法,在機器學習中,你通常已經確定了架構,然后在這個架構內通過訓練解決具體問題。而進化所做的,可能是產生和篩選不同類型的架構。
保羅:也就是說,進化能夠嘗試的可能方案范圍更廣?
托馬索:每一種架構所對應的搜索空間,其實都是不同的。
保羅:這是什么意思?
托馬索:舉個例子。假設在智能最早出現的時候,這當然只是推測,生物體只有非常簡單的聯結式反射。比如,一道閃光出現,就觸發逃避反應。最初,這種反應大概是寫在基因里的硬編碼機制。后來,它可能逐漸變得更為靈活,會根據刺激強度或環境狀態作出不同反應。但這種機制仍然是一種非常狹窄的解決方案。本質上,它就像一個單層網絡。如果用神經網絡的比喻來說,就是只有一層的結構。直到某個階段,你發現可以使用多層結構。
這會擴大你能夠表示的解決方案類型,也擴大可以學習的問題范圍,但仍然不是全部。比如,在這種結構下,你可以進行類似監督學習的學習方式,但還無法像強化學習那樣通過主動探索來發現策略。進化可能正是在不斷“發現”或塑造這些更復雜的智能形式,或者說,不同的學習機制。換句話說,它不僅是在優化已有架構內的參數,而是在不斷創造新的學習方式。
保羅:很有意思,這樣理解也很合理。在最后幾分鐘,我們不妨再把視角拉回到更宏觀的層面。剛才我把話題從你提到的“Brains, Minds, and Machines”項目帶開了,聽起來那是一個面向未來的計劃。我現在更想問的是,你對未來的整體判斷。你對接下來二十年的理論發展感到興奮,或更多的是忐忑?同時,你認為當前這個領域真正的瓶頸是什么?我猜你的回答可能會是“學習理論”,但如果真是這樣,是否還有更具體的層面值得指出?
托馬索:毫無疑問,我對未來確實充滿期待。當然,也難免會有一點擔憂。
保羅:如果和三十年前相比,你現在的感受一樣嗎?你一直穩步推進自己的研究。如今是比過去更興奮,還是更擔憂?或是更從容?這是一個完全不同的階段,還是說,你覺得這本來就是歷史的自然進程?你見過各種潮起潮落,而未來也會繼續向前發展。
托馬索:我確實感到興奮。當然,三十年前我也同樣興奮。但現在的賭注大多了。如今,經濟的許多領域,以及科學研究的多個方向,都深度依賴機器學習。過去并非如此。正因為影響更廣泛,我們更需要把方向走對,而且要真正做好。坦率地說,我從未想過,我們會在這場“智能競賽”中走到今天這個階段。
保羅:真的嗎?這太令人驚訝了。
托馬索:是的。我原本以為進展會更慢,也許到最后我想的是對的。但目前確實發生了明顯的進展,尤其是大語言模型,這一點真的讓我感到意外。它們為進一步探索提供了非常扎實的“落腳點”,尤其是在理論層面。同時,我也覺得,我們以及許多同行正在構建的理論體系,比十年前我所能預期的要豐富得多。當然,仍然有大量工作等待去完成。
保羅:那太好了。
托馬索:這件事遠沒有那么簡單。這并不是某種神經網絡因為一兩個偶然因素就“恰好成功”了。它背后有很多值得深入研究的方面,其中有些相當深刻。從研究一種在某些方面可能超越我們的人類智能這一點來看,我覺得就非常令人興奮。不過,我一直認為,它的發展速度可能會比許多人想象的更慢。我記得大約十年前,在波多黎各的一次會議上,馬克斯·泰格馬克(Max Tegmark)和幾位朋友組織了一場討論。當時我們做了一個投票。大多數人預測,所謂的通用人工智能,或者超級智能,大概會在二十五年內出現。我當時給出的判斷是五十年。
保羅:等等,這是多久以前的事?幾年前嗎?
托馬索:十年前。
保羅:對那些樂觀派來說,這數字已經挺大了,他們通常會說“接下來的5年、10年”。25 年已經是個大數字了,但我喜歡你直接把它翻了個倍。
托馬索:我當時估計的是五十年。現在的話,大概是四十年左右。我可能還是會堅持這個判斷。當然,現在我覺得它也許會更快一些,但這取決于你如何定義“實現”。比如,自動駕駛就是一個很好的例子。我一直在密切關注這一領域。最初我自己參與過相關研究。后來通過我的好友阿姆農·沙舒阿(Amnon Shashua),他創辦的公司Mobileye為特斯拉提供了第一套系統。自動駕駛已經“出現”了。在舊金山等城市,你可以乘坐自動駕駛出租車。但真正完全普及、隨處可見的自動駕駛車輛仍然很少。而且,目前仍然做不到讓一輛車在任何環境下都像人類一樣自如駕駛。問題往往卡在那“最后的1%”可靠性上。恰恰是這最后1%,可能需要非常漫長的時間才能攻克。
保羅:這很有意思。人們一說“自動駕駛”,腦海里往往會自動浮現一個畫面:問題已經徹底解決,自動駕駛汽車滿街都是。但現實并不是這樣。
托馬索:確實如此。大概十年前,我在舊金山的Uber面試過一次,主要是出于興趣。
保羅:出于興趣去面試?
托馬索:是的,我并沒有真的打算加入他們。不過讓我印象深刻的是,當時他們談到自動駕駛時,語氣仿佛2015年已經近在眼前,接下來六個月就會發生重大突破。
保羅:在那樣的環境里工作,確實需要這種樂觀精神,才能每天都有動力去推進。
托馬索:大概是吧。
保羅:我算是X世代吧,可能是偏晚一點的那一批。我小時候用的是錄像機那種模擬設備,也經歷了電腦剛開始普及的年代。直接說重點吧。我有年幼的孩子,說實話,我很擔心技術變化的速度。它變得越來越難以預測。
在過去靠馬匹傳遞書信的時代,你大概還能比較準確地預測明年會發生什么。但現在,這些新工具會怎樣影響他們,我根本無法想象,也不知道接下來會發生什么。一切都在加速。作為父親,這種不確定感這讓我感到相當不安。我知道你的孩子已經長大了。
托馬索:我完全同意。當然,我也擔心氣候變化,但在某種意義上,我更擔心人工智能與教育的問題。正如你所說,變化的速度太快,我們幾乎跟不上。我們甚至不知道最好的教學方式應該是什么。你不可能禁止孩子使用 ChatGPT。事實上,也許還應該鼓勵他們去學會使用它。但與此同時,我們必須確保他們真正掌握數學等基礎能力。
問題是,我們如何同時做到這兩點?我已經在大學里看到這種困境。一方面允許使用 ChatGPT,另一方面又要求學生說明何時使用、如何使用。因為我們當然不希望學生把所有的自主權都交出去,完全依賴ChatGPT,那會毀了我們的文化,毀了我們的社會。
保羅:問題在于,我們得去想辦法應對它,找到解決方案。可等我們真正想清楚的時候,這個問題可能已經不復存在了,因為新的挑戰又出現了。它會被下一個變化取代。我也說不好。
托馬索:《百年孤獨》的作者加夫列爾·加西亞·馬爾克斯(García Márquez)曾說過,乘坐飛機旅行會打亂我們對世界的感知。他說,人應該像騎馬或坐火車那樣旅行,這樣時間不會變化得太快。
否則你會被甩出去,就像經歷時差一樣。對教育來說,這是一場巨大的“時差反應”。
保羅:這個比喻真不錯。我還記得《百年孤獨》里的這句話,“世界像橙子一樣是圓的”。
對談鏈接:
https://www.thetransmitter.org/brain-inspired/tomaso-poggio-on-his-quest-for-theories-to-explain-the-fundamental-learning-abilities-of-brains-and-machines/
![]()
![]()
![]()
![]()
![]()
![]()
![]()
關于追問nextquestion
天橋腦科學研究院旗下科學媒體,旨在以科學追問為紐帶,深入探究人工智能與人類智能相互融合與促進,不斷探索科學的邊界。歡迎評論區留言,或后臺留言“社群”即可加入社群與我們互動。您也可以在后臺提問,我們將基于追問知識庫為你做出智能回復哦~
關于天橋腦科學研究院
天橋腦科學研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元創建的世界最大私人腦科學研究機構之一,圍繞全球化、跨學科和青年科學家三大重點,支持腦科學研究,造福人類。
Chen Institute與華山醫院、上海市精神衛生中心設立了應用神經技術前沿實驗室、人工智能與精神健康前沿實驗室;與加州理工學院合作成立了加州理工天橋神經科學研究院。
Chen Institute建成了支持腦科學和人工智能領域研究的生態系統,項目遍布歐美、亞洲和大洋洲,包括、、、科研型臨床醫生獎勵計劃、、、科普視頻媒體「大圓鏡」等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.