當前由大型語言模型掀起的 AI 狂潮,可能是一條通往通用智能的“捷徑”或“彎路”。真正指向 AGI 和深刻科學發現的主干道,十年前 AlphaGo 就已經鋪就。如今,在經歷了 LLM 的喧囂之后,我們才剛剛開始重新認識并回歸這條正道。
![]()
2016 年 3 月,首爾。當李世乭在第四局下出“神之一手”(第 78 手),迫使 AlphaGo 投子認負時,全世界的圍棋愛好者和科技觀察者都松了一口氣。人類的智慧,似乎在最后關頭捍衛了尊嚴。這場 4:1 的比賽,尤其是第二局中那石破天驚的第 37 手,已經揭示了一個遠比勝負更重要的事實:一個超越人類認知范式、具備“直覺”和“遠見”的非人智能,誕生了。
![]()
十年過去,我們有了 ChatGPT,有了 Sora,AI 的能力邊界似乎每天都在被刷新。但如果我們仔細聆聽 Google DeepMind 最近關于 AlphaGo 十周年復盤訪談就會發現,今天所有關于 AI agent、科學發現、乃至超越人類知識邊界的討論,其思想內核與技術地基,都源于那塊小小的圍棋棋盤。
我們對 AlphaGo 的理解,大多還停留在“下棋很厲害的程序”這一淺層認知上,而它真正的遺產,才剛剛開始顯現其顛覆性的力量。
要理解 AlphaGo 的顛覆性,必須將它與“深藍”(Deep Blue)區分開來。1997 年,深藍擊敗國際象棋世界冠軍卡斯帕羅夫,靠的是強大的暴力計算。國際象棋的狀態空間雖然巨大,但仍在當時超級計算機可處理的范圍內。其核心是“搜索”,即盡可能多地推演未來的棋局變化。
![]()
而圍棋,則完全是另一個維度的挑戰。其狀態空間達到了 10 的 170 次方,比宇宙中已知的原子總數還多。暴力搜索在這里毫無意義。人類頂尖棋手之所以強大,并非因為他們算得比別人多,而是因為他們有一種“棋感”或“直覺”,能夠迅速判斷棋盤上的優劣勢,并從海量可能性中,憑直覺篩選出幾個最有希望的落子點。
AlphaGo 的核心突破,正是成功地用機器模擬并超越了這種“直覺”。Thore Graepel 將其總結為“快思考”與“慢思考”的結合,這與人類的決策過程高度相似。
“快思考”來自于兩個深度神經網絡:
“慢思考”則是基于蒙特卡洛樹搜索(MCTS)的“計算”。它在策略網絡給出的幾個候選點基礎上,進行前瞻性推演,探索“如果我下這里,對手可能會如何應對,然后我又該如何……”的各種可能性。
![]()
所以,AlphaGo 不是用更強的計算能力去碾壓人類,而是發明了一種機制,讓機器學會了如何“聚焦”它的計算能力。策略網絡和價值網絡共同照亮了圍棋那黑暗、廣闊的搜索空間中最有希望的路徑。Move 37 之所以讓所有人類職業棋手震驚,因為它落在了一個人類直覺完全不會考慮的位置,但 AlphaGo 的“直覺”和后續的“計算”卻證明了它是全局最優解。這標志著,機器的“直覺”已經探索到了人類知識體系之外的領域。
如果說 AlphaGo 證明了 AI 可以達到并超越人類頂尖水平,那么它的繼任者 AlphaZero 則揭示了一個更令人震撼的可能性:AI 可以完全不依賴人類知識,從零開始,通過自我博弈,達到一個遠超人類的全新境界。
AlphaGo 的初始版本,其策略網絡是通過學習數百萬局人類職業棋手的棋譜來訓練的。它先是“模仿”人類,然后再通過自我對弈進行“強化”。而 AlphaZero 則完全拋棄了人類棋譜數據。它只被告知了圍棋的基本規則,然后就開始了海量的自我對弈。
![]()
AlphaZero 的成長經歷了一個過程:
AlphaZero 后期的棋風“看起來很陌生”。它的落子在當時看來可能毫無道理,但幾十步之后,人們才恍然大悟,原來它在下一盤很大的棋,一切都已盡在掌握。
AlphaZero 的意義遠超圍棋本身,它在科學方法論上提供了一個全新的范式。它證明了,對于一個規則明確的復雜系統,一個智能體可以通過“自我生成數據”(self-play)和“強化學習”,獨立發現該系統最優的運行策略,而無需任何人類先驗知識的引導。
人類積累了數千年的知識,可能只是巨大“解空間”中的一個局部最優解。AI 有能力幫助我們找到那些隱藏在人類認知盲區中的、更優的全局解。
就在首爾比賽結束后,當團隊成員還在收拾設備時,麥克風記錄下了 DeepMind 創始人 Demis Hassabis 和 David Silver 的對話。Demis 說:“我們能解決蛋白質折疊問題了……我之前就覺得我們能行,但現在,我們肯定能行了。”
這并非一時興起的豪言壯語。DeepMind 從一開始的終極目標就不是贏得棋類游戲,而是將從游戲中驗證的這套“解決復雜搜索問題”的方法論,應用到真實的、更宏大的科學挑戰中。Pushmeet Kohli 的加入以及他所領導的科學團隊,正是這一愿景的執行者。
AlphaGo 的核心遺產,是將一個復雜問題“游戲化”的能力。
一個“游戲”具備幾個要素:一個巨大的狀態空間(所有可能的局面),一套明確的規則(如何從一個狀態轉移到另一個狀態),以及一個清晰的目標(獲勝)。科學發現中的許多“大挑戰”同樣可以被抽象為這樣的“游戲”。
比如AlphaFold 與蛋白質折疊:
![]()
再比如AlphaTensor 與算法發現:
同樣的,還有AlphaDev 與程序優化:
![]()
這解釋了為什么 LLM 如此驚艷。它們本質上是對人類已有知識的壓縮、重組和模仿。但這條捷徑也帶來了兩個根本性的局限:
而 AlphaGo/AlphaZero 所代表的道路,雖然起步更難,但它直指問題的核心:如何在一個系統中生成真正的新知識?
這套范式包含兩個關鍵環節,正如哲學家卡爾·波普的理論:“猜想與反駁”。
今天 AI 領域的前沿,正是這兩條道路的融合。LLM 可以作為非常強大的“猜想”引擎,它能基于海量知識生成各種新穎的算法、分子結構、數學證明的思路。然后,再將這些“猜想”放入一個 AlphaGo 式的、具備嚴格驗證環境的 agent 系統中去“反駁”和“篩選”。
例如,讓 LLM 生成一段代碼(猜想),然后在一個編譯和測試環境中反復運行、修改,直到通過所有測試(反駁)。
這才是回歸了那條由 AlphaGo 開辟的道路:構建一個目標導向的、能夠在環境中自主探索和驗證的智能體。
AlphaGo 帶來的沖擊,可以說是一個“哥白尼時刻”,動搖了“人類智慧是萬物尺度”的信念。Move 37 和 AlphaZero 的出現,讓我們第一次窺見,在人類知識的邊界之外,存在著廣闊的、非人類中心的智能形式。
十年后的今天,我們不必再為機器是否會下棋而焦慮。新的議題是:我們如何利用這種全新的發現工具,去解答那些最根本的科學問題?
在這個新時代,科學家和數學家的角色非但沒有被削弱,反而變得更加重要。因為 AI agent 擅長的是在定義好的“游戲”中找到最優解,而“定義什么游戲值得玩”、“如何精確地設定游戲規則和目標”,則成為了人類智慧最核心的價值所在。
從 AlphaGo 到 AlphaFold,再到 AlphaTensor,DeepMind 的十年經歷表明,AI 的最高價值不是模仿人類,而是與人類合作,擴展人類的認知邊界。
AlphaGo 的十年,不是一個終點,而是一個真正的起點。它為我們提供了一把鑰匙,用以開啟那些因其巨大的復雜性而對人類關閉了數個世紀的知識大門。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.