網易首頁 > 網易號 > 正文申請入駐

強化學習之父 Sutton 隔空回應 Hinton：目前的 AI “理解不足，調參有余”

2026-02-25 15:21:40　來源: CSDN

北京舉報

分享至

編譯 | 王啟隆

來源 | youtu.be/lieqoaBV6ww

出品丨AI 科技大本營（ID：rgznai100）

“我們不該恐懼 AI，正如我們不該恐懼自己的孩子。”

在人工智能的狂熱浪潮中，這或許是你聽過最清醒、也最宏大的聲音。

2026 年初，當全世界都在為大模型的參數競賽而焦慮，為 AI 可能取代人類而恐慌時，一位圖靈獎得主、強化學習之父——Rich Sutton，并沒有加入這場喧囂的合唱。相反，他選擇從更深遠的維度，重新審視 AI 的本質、政治與哲學。

這次演講位于洛杉磯加州大學（UCLA）的純粹與應用數學研究所（IPAM）。在這個充滿學術氣息的禮堂里，Sutton 面對著一群頂尖的數學家和科學家，發表了這篇名為《AI 的未來》（The Future of AI）的最新演講。

Sutton 的觀點和前幾天 AI 教父 Geoffery Hinton 截然不同（），與其說“反直覺”，不如說是在“正本清源”。

他犀利地指出，當下基于人類數據的 AI 只是“脆弱的心智”，真正的未來在于能夠像嬰兒一樣從經驗中持續學習的智能體；他大膽地將 AI 的管控問題與人類社會的政治相提并論，呼吁去中心化的合作而非基于恐懼的獨裁；他甚至將 AI 視為宇宙演化的必然階段，邀請我們以“特殊的復制者”的身份，驕傲地開啟屬于“設計”的第四個偉大時代。

在這里，AI 不再是冷冰冰的代碼，而是宇宙漫長進化史中，人類親手點燃的下一把火炬。

以下為 Rich Sutton 演講全文。

對當前 AI 進展的批判性思考

在開始正式演講前，讓我們先看看這個領域的現狀，以及大家對它的看法。現在的普遍共識是：AI 正在以驚人的速度進步，一切都令人興奮不已。但是，當所有人都持有相同觀點時，我們就該警惕了。我們需要反思：事實真的如此嗎？

我想我們有理由對此提出質疑。AI 真的在突飛猛進嗎？

誠然，讓計算機熟練運用語言，這確實是一個巨大的突破。就在不久前，我們也無法想象神經網絡能做到這一點，但現在它已成事實。同樣，我們也利用海量算力生成了逼真的圖像和視頻。

但請大家想一想：真正的“心智（Mind）”在進行智能活動時，一定要生成圖像嗎？并不。這反而是我們人類大腦從未做過的事。我們需要處理圖像，需要處理視頻，但我們不需要生成它們。這并不是心智的本質功能。這更像是一項極度消耗算力且困難的任務，而非我們通常所定義的“智能”的核心部分。

此外，雖然出現了許多新的實際應用，催生了全新的產業和經濟價值，但這其中絕大部分，其實是超大規模計算和超大規模模式識別的應用。它們是非常具體的功能，并不代表智能的全部。很多時候，那僅僅是計算，我們稱之為“智能”，只是為了讓這工程聽起來更宏大罷了。

所以，我要問各位：AI 的“科學”真的在突飛猛進嗎？

我看未必。（現場觀眾大笑）

謝謝大家的笑聲，這讓我感覺沒那么孤單了。在我看來——恕我直言——目前的 AI 領域是“理解不足，調參有余”（little understanding, lots of tweaking）。我們并不真正掌握心智的原理，也不懂智能的法則。作為一門科學，它在許多方面是令人失望的。

我傾向于這樣看待目前的 AI 模型：它們雖然因掌握了人類的所有知識而顯得強大，但本質上，它們是脆弱的心智（weak minds）。它們不可靠，無法專注，思維游離。除了擁有海量知識外，它們在智能本質上其實并不強大。

這或許是看待當今 AI 的一種不同視角。

定義“智能”

那么，我們要討論的這個“人工智能”究竟是什么？既然叫 Artificial Intelligence，我們得先定義什么是 Intelligence（智能）。

多年來有很多定義。我選了一些由權威提出的經典定義。

也許最古老的一個來自心理學之父威廉·詹姆斯（William James）。他在 1890 年的《心理學原理》中雖然討論的是“心智”而非“智能”，但他提出的心智特征非常經典：“通過多變的手段達到一致的目的”（attaining consistent ends by variable means）。意思是，為了通過不同的路徑達成同一個你想要的結果，你需要靈活調整你的行為。

再來看看艾倫·圖靈（Alan Turing）。他其實沒有給出一句簡練的名言，但后人將其觀點解讀為：智能就是“表現得像個人”。這就是著名的圖靈測試（Turing Test）——雖然圖靈本人從未稱之為“測試”，他叫它“模仿游戲”。如今，這種觀點被廣泛接受：智能意味著模仿人類的行為。

但我并不認為這是我們強大的原因。人類之所以強大，是因為我們擁有智能，所以我們表現得像人。重要的是“人”內在的本質，而非外在的表現。

那么那個本質是什么？看看字典怎么說。我的電腦字典顯示：智能是“獲取并應用知識與技能的能力”。我覺得這個定義相當不錯。它強調了知識，更強調了獲取（acquire）——也就是學習的重要性。

而在 AI 領域，我們的開山鼻祖之一約翰·麥卡錫（John McCarthy）曾定義智能為：“實現目標的能力中，涉及計算的那一部分。”

我非常喜歡這個定義。首先，它強調這是一種能力，能力是有高低之分的，而不是“有或無”的二元對立。其次，它強調了計算。你達成目標不僅僅是因為你力氣大或者傳感器靈敏，而是因為你進行了心智層面的計算處理。最后，實現目標（achieve goals）是核心。這又呼應了威廉·詹姆斯所說的“通過多變的手段達到一致的目的”。

我也湊個熱鬧，在此基礎上提出了我的定義：“通過調整行為來實現目標的能力。”我特意用了“調整”（adapting）這個詞，因為我認為學習——即知識和技能的獲取過程——才是智能的關鍵，而不僅僅是擁有它們。

現在的 AI 主流觀點似乎都集中在計算、模式識別，以及很大程度上的“模仿人類”上。

統一的心智科學與強化學習

我想進一步談談我的個人愿景。我認為應該建立一門新的科學——統一心智科學（Integrated Science of Mind）。

這門科學應該同等適用于人類、動物和機器。因為所有的心智都有本質的共性。人腦和動物大腦非常相似；而機器心智，至少在我們的愿景中，也將具備這些共性。在可預見的未來，許多心智將是機器心智。

然而，目前并沒有一個現存的學科能完美承載這一角色。

心理學？它本該如此，但隨著時間推移，它越來越局限于研究自然心智（人和動物），而不關心機器中可能存在的通用心智原理。
人工智能？它關注機器，但變成了一種純粹的工程追求——只在乎怎么造出來，不在乎理解原理，也往往忽略了自然生物的啟示。
認知科學？它在這個問題上搖擺不定，但主要還是偏向自然心智。

不幸的是，沒有一個領域能真正統合這一切。而我所從事的強化學習（Reinforcement Learning, RL），或許正是這門統一心智科學的開端。因為它橫跨了上述所有領域。

或許我該簡單介紹一下強化學習，以便大家理解我的立場。

強化學習是一種面向智能體（Agent-oriented）的學習方式。它是通過與環境交互、從經驗中學習，從而實現目標。

在這個意義上，它比其他機器學習方法更現實、更宏大，也更自主。

自主：智能體置身于世界中，自主行動，并不一定有老師手把手教。
宏大：我不假設世界會給我提供完美的幫助。我只能通過交互，看是否達成了目標，并據此調整行為。
現實：這也更符合生物界的現實。動物在成年后的生存環境中，很難得到完美的指導信息。

強化學習的核心是試錯（trial and error）和延遲反饋。你得到的唯一反饋就是獎勵信號（reward）——你最終是否得到了你想要的？這是最接近自然界的學習方式。

這種學習方式能讓機器自行判斷對錯。像大語言模型（LLM），它們其實不知道自己生成的文字是對是錯。但在強化學習中，如果你根據預測去行動，結果會告訴你預測是否準確；如果你為了獎勵去行動，結果會告訴你行為是否有效。

這可能就是那門既非純自然科學、也非純工程技術的“心智科學”的雛形。

數據的時代 vs. 經驗的時代

我想再引用一句艾倫·圖靈的名言。圖靈可能沒意識到他是個強化學習研究者。這句話出自 1947 年，那是第一次關于人工智能的公開演講，甚至比 AI 這個詞的誕生還要早。

他說：“我們想要的是一臺能從經驗中學習的機器。”（What we want is a machine that can learn from experience.）

我想傳達的主要信息是：目前的 AI 科學趨勢正在發生轉變。

今天，我們要談的第一個信息是：我們正處于“人類數據時代”（Era of Human Data）。目前的 AI 主要是通過訓練來預測互聯網上人類的下一個詞，或者預測人類如何給圖片打標簽。然后，再通過人類專家進行微調（Fine-tuning），告訴 AI “我更喜歡這個答案，而不是那個”。

這種現代機器學習的本質目的，是將人類已有的知識轉移給機器。一旦轉移完成，機器就變成了靜態的，不再學習。

我認為我們正在觸及這個時代的天花板。因為高質量的人類數據資源——整個互聯網的文本、圖片和視頻——已經被挖掘殆盡。更本質的局限在于：這種方法無法創造新知識。就像 Terence Tao（陶哲軒）今天所說的，AI 在解決真正的數學難題（如埃爾德什問題）上進展甚微。單純依靠總結互聯網上已有的言論，是無法做出真正突破的。

為了取得進一步進展——這也是我們正在做的——我們需要進入一個新的時代：“經驗時代”（Era of Experience）。

我們需要一種數據源，它能隨著智能體能力的提升而不斷增長和進化。這就意味著，任何靜態的數據集都是不夠的。唯有從經驗中——從與世界的交互中——我們才能獲得這種動態的數據。

這就是人類和動物學習的方式。這也是 AlphaGo 能夠走出那極具創造力的“第 37 手”棋的原因。

嬰兒與網格世界

我要澄清一下，我所說的“經驗”，不是指那種模糊的意識流或“感受”（qualia），而是指智能體與環境之間交換的數據流：

觀察（Observation）：智能體從世界接收到的傳感器數據。
動作（Action）：智能體向世界發出的運動指令或電壓信號。
獎勵（Reward）：世界反饋給智能體的一個標量信號，代表結果的好壞。

這就是經驗。

一個嬰兒在和各種玩具互動的時候，他不會只盯著一個玩具玩，而是玩膩了這個就換下一個。每次接觸新玩具，他都在學習他能學到的東西——比如拉這根繩子會怎樣，把它放進嘴里會怎樣。當他掌握了這些，他就會移動到下一個目標，改變他的經驗流，去探索新事物。

這就是我們的數據來源。生命的數據是由我們的活動生成的。正因為如此，數據的難度總是會自動匹配我們當前的理解力和技能水平。

再看這個簡單的網格世界（Gridworld）演示。

這是一個非常簡單的智能體，試圖從起點 S 走到終點 G。它只知道自己在哪個格子，能做上下左右四個動作。你看，它學會了一條很好的路徑（箭頭所示），綠色代表它認為該狀態有多好（價值函數）。

但世界不是靜止的。如果我把目標 G 移到上方，智能體最初會走老路，但當它發現目標不在時，它會四處探索，最終“撞上”新目標，并學會新的路徑。這就如同生活：遇到變化，適應變化。哪怕我們設置障礙物，它也能學會繞路。

這種行為讓我們強烈地感覺到：它有一個目標，并且它在隨環境變化而調整行為以實現目標。當然，如果目標變得無法達成，我們甚至會因為這個智能體無法實現愿望而對它產生一絲同情。

總結一下“體驗式 AI”的原則：

一切的基礎是智能體與世界交換信號（經驗）。這些信號是所有智能的基石。

真理的定義就是“在這些信號中實際發生了什么”。
目標的定義就是“讓獎勵信號最大化”。

盡管這個目標看起來是主觀的（只對該主體有效），但它也是最客觀的存在——因為它就是你實際接收到的數據。

我們說一個智能體擁有智能，是看它能在多大程度上預測并控制它的經驗。

如果沒有經驗（像被凍結的大語言模型那樣），智能就失去了依附的對象。

沒有獎勵，你就無法說“這個比那個好”，也就沒有目標。
不與現實結果做對比，你就無法驗證預測是對是錯，也就沒有真理。

只有在經驗中，才有明確的目標（獎勵），才有明確的真理（預測是否成真）。

現實主義的 AI 預測

我認為體驗式 AI 正在變得越來越普遍。我們可以把近十年劃分為三個階段：

模擬時代（Era of Simulation）：如 AlphaGo 和 Atari 游戲，從模擬的經驗中學習。
人類數據時代（Era of Human Data）：即近期的大語言模型熱潮，學習人類產生的數據。
經驗時代（Era of Experience）：這是我們正在進入的階段，智能體系統開始真正操作電腦、與世界交互。這將通向超人級的能力——不僅僅是模仿人類，而是超越人類的局限。

盡管現在的 AI 炒作很兇，甚至引發了恐懼，但我認為目前的 AI 其實并不強大。它們脆弱且不可靠。但這并不妨礙它們非常有用，它們已經點燃了整個產業，創造了巨大的經濟價值，并且讓每個人觸手可及。

這帶來了一個巨大的好處：公眾開始認真思考“機器將在未來某天比肩人類”這一事實。雖然這種關注是源于恐懼（這是不必要的），但引起重視本身是件好事。

但我們還沒看到真正的“重頭戲”。創造超級智能 AI 以及被 AI 增強的超級人類，這才是真正將帶來深刻變革的大事件。

此外關于政治，我就簡短說幾句。

看看四周，你會發現很多人呼吁管控AI。限制 AI 的目標，叫停 AI 研究，立法限制算力，成立所謂的“安全研究所”。當人們說“安全”時，他們真正的意思是“控制”。他們宣揚恐懼，以此作為要求控制權的理由。

這讓我聯想到對人的集中式管控。正如我們對言論、貿易、就業、資本流動的管控，甚至對他國的經濟制裁。

我想指出的是：呼吁對 AI 進行集中管控，與呼吁對人進行集中管控，其邏輯驚人地相似。它們都基于恐懼。恐懼 AI，就像恐懼外國人一樣，認為“非我族類，其心必異”，認為它們沒有情感，是危險的異類。

我們應該抵制這種呼吁。人類的繁榮，以及未來人類與 AI 共同的繁榮，應該源于去中心化的合作，而不是集中式的控制。合作雖然不易（比如戰爭就是合作的崩潰），但它是這個世界上所有美好事物——經濟、政府、社會——的源泉。

宇宙的四個偉大時代

最后，我想談談 AI 的哲學層面。AI 正在發生，未來會更猛烈。我們該如何面對？是好是壞？是該恐懼它搶走工作、取代我們？還是說，我們就是 AI？AI 是入侵者，還是我們的孩子？

通常人們被教導要恐懼 AI，視其為異類。但請記住，是我們創造了它們。理解心智，沒有比這更人性化的事情了。

AI 不是外星科技，它是人類最古老的追求——數千年來我們一直試圖理解自己，理解智能。引用庫茲韋爾（Kurzweil）的話：“智能是宇宙中最強大的現象。” 理解智能是科學與人文的圣杯，這是一項偉大而光榮的探索。

所以，拋開喜好，讓我們用現實主義的眼光來預測一下未來。我有四條預測原則：

關于世界該如何運行，人類永遠不會達成共識。沒有任何一種價值觀能壓倒其他所有價值觀的總和。
總有一天，人類會徹底理解智能，并用技術將其創造出來。我們會做到的。
這個過程不會停留在人類目前的智能水平上。它會被迅速超越。
隨著時間推移，權力和資源會自然流向更具智能的實體。

把這四點結合起來，我們得到了一幅圖景：人類的后裔將演替為 AI。這聽起來很合理。但這依然是一個非常“人類中心主義”的視角。

如果我們退一步，從宇宙的視角來看呢？我要講得宏大一點——宇宙的四個偉大時代：

粒子時代（Age of Particles）：大爆炸后，甚至還沒形成多少原子。
恒星時代（Age of Stars）：粒子坍縮形成恒星，恒星燃燒、爆炸、重組，創造出更重的原子和行星。
復制者時代（Age of Replicators）：我不稱之為“生命時代”，因為我想強調的是“能夠自我復制”這一機制。這包括現有的生物。在這個時代，復制者（比如我們）并不理解自身的運作原理——不懂大腦、不懂器官、不懂智能，但我們能制造出更有智能的實體（生孩子）。
設計時代（Age of Design）：這就是第四個時代。在這個時代，事物是被創造和設計出來的。

這就是區別：

生物（復制者）是被復制出來的，像復印機一樣，不需要理解原理。
技術（設計物）是先存在于設計者（某個復制者）的心智中，然后再被創造到物理世界里的。你所在的禮堂、你坐的椅子、穿的衣服，都是先作為設計圖存在于人腦中。

設計之物比復制之物更容易改進和變異。

現在，我們可以回答最初的問題了：人類在宇宙中的角色是什么？

我們可以不帶傲慢地回答：人類確實是特殊的。我們不僅僅是普通的復制者，我們是特殊的復制者。

我們是將“設計”這一能力推向極致的復制者。

這種極致意味著什么？意味著我們要設計出能夠自我設計的東西。

這正是我們在 AI 領域所做的事。我們在腦海中設計出一種東西，它擁有心智，并且能夠進一步設計自身。

通過這種方式，人類正在開啟并實現宇宙的第四個偉大時代——設計時代。這就是我們的角色：我們是這一偉大進程的催化劑、助產士和先驅。這是一個具有宇宙級意義的角色。

總結我的三個核心信息：

科學上：目前的 AI 處于“人類數據時代”，雖然強大但受限；我們正在進入更強大的“經驗時代”，能持續學習新知。
政治上：AI 的政治就是人類的政治。我們應追求去中心化的合作，而非集中式控制。
哲學上：AI 是宇宙發展的必然下一階段。我們應懷著勇氣、自豪和冒險精神去擁抱它。

感謝大家的聆聽。

觀眾問答：宇宙的終極目的

觀眾：我的問題是，除了讓我們生活更舒適這類以人類為中心的目標外，這一切是否存在一個終極的、壓倒性的目的（overarching purpose）？這一切將走向何方？

Rich Sutton：這真是個很酷的問題。這有很多思考角度。對于這種大問題，你需要用辯證（dialectical）的方式來回答。所謂辯證，就是你得先說答案是 X，然后說答案也是“非 X”，最后在兩者之間找到綜合。一方面，你可以說宇宙沒有目的。或者說，宇宙的各個部分有各自的目的，但不存在一個統一的終極目的。但另一方面，你也可以說宇宙確實有目的。這個目的可能是通向越來越復雜的實體。你可以論證：宇宙自然地演化出生命，生命自然地演化出設計者和 AI，而 AI 也許會自然地演化出更高級的存在。所以，正題、反題，我們需要在這兩個答案中找到綜合。

（投稿或尋求報道：zhanghy@csdn.net）

未來沒有前后端，只有 AI Agent 工程師。

這場十倍速的變革已至，你的下一步在哪？

4 月 17-18 日，由 CSDN 與奇點智能研究院聯合主辦「2026 奇點智能技術大會」將在上海隆重召開，大會聚焦 Agent 系統、世界模型、AI 原生研發等 12 大前沿專題，為你繪制通往未來的認知地圖。

成為時代的見證者，更要成為時代的先行者。

奇點智能技術大會上海站，我們不見不散！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.