網易首頁 > 網易號 > 正文申請入駐

DeepMind花20萬美元買答案

2026-03-20 09:52:31　來源: 字節漫游指南

北京舉報

分享至

200萬美元獎金池，Kaggle黑客松，Google DeepMind正在用真金白銀買一個問題的答案：我們離通用人工智能（AGI，Artificial General Intelligence）到底還有多遠？

這不是學術圈的自嗨。當OpenAI、Anthropic、DeepMind各自宣稱自己"接近AGI"時，他們用的尺子完全不同——有的看任務完成率，有的看推理深度，有的直接看能不能騙過人類。DeepMind這次扔出的框架，試圖用認知科學給這場混亂的測量競賽建立一套通用語法。

正方：認知科學是AGI測量的必要錨點

DeepMind的論文核心論點很直接：AGI不是單一技能，而是一組認知能力的組合。他們搬出了心理學、神經科學幾十年的研究成果，把"通用智能"拆解成10項具體能力——從感知、記憶、語言，到元認知、社會認知、執行功能。

這個拆解本身就有價值。當前AI評估的混亂在于，每個人都在優化自己能測的東西：代碼能力用HumanEval，數學用GSM8K，多模態用MMMU。但這些測試有個共同盲區——它們測的是"任務完成度"，而非"能力本身"。

DeepMind提出的三階段評估協議試圖解決這個問題：

第一階段，確定人類在該認知能力上的基準表現；第二階段，設計能隔離該能力的可控實驗；第三階段，對比AI與人類的泛化表現差異。

「我們假設這些認知能力對AI系統的通用智能至關重要」，論文作者Ryan Burnell和Oran Kelly寫道。這個假設的潛臺詞是：如果AI在"學習"這項能力上表現像人類，它應該能像我們一樣，用少量樣本適應新任務，而非依賴海量預訓練數據的模式匹配。

更深層的商業邏輯在這里——如果認知科學框架被行業采納，DeepMind將成為AGI測量的標準制定者。就像IEEE定義Wi-Fi協議、3GPP定義5G標準，誰掌握評估框架，誰就掌握"什么是AGI"的定義權。

黑客松的獎金分配也暴露了優先級。20萬美元中，最大的一塊流向五個"評估缺口最大"的能力：學習、元認知、注意力、執行功能、社會認知。這五個領域的共同點是——現有基準測試幾乎為零。

以元認知（metacognition，即"對思考的思考"）為例。人類知道自己知道什么、不知道什么，能據此調整策略。當前大語言模型會"幻覺"，恰恰是因為缺乏這種自我監控能力。但怎么測？沒有現成答案。DeepMind花錢買的就是這個。

反方：認知框架是概念陷阱，測量AGI需要工程思維

批評者的核心質疑只有一個：把人類認知結構套在AI上，是不是一種范疇錯誤？

人類智能是億萬年進化的產物，受限于生物能耗、神經傳導速度、社會協作需求。AI智能是工程優化的結果，以Transformer架構為例，它的"注意力"機制（attention mechanism）名字借自心理學，實際運作方式與人類選擇性注意幾乎無關——前者是矩陣乘法，后者是神經遞質調節。

強行對齊可能導致誤導。比如DeepMind框架中的"工作記憶"（working memory），在人類身上容量有限（7±2個組塊），但大模型的上下文窗口已從4K擴展到200萬token。用人類標準衡量，它們"記憶力"遠超人類；但從機制看，這完全是不同層面的能力。比較數字本身沒有意義。

更尖銳的批評來自AI安全研究者：認知框架可能掩蓋真正的風險。如果一個系統在社會認知測試中表現優異——能理解諷刺、識別意圖、預測他人行為——這恰恰意味著它更擅長欺騙和操縱。DeepMind的框架把"社會認知"列為中性能力，但能力的價值取決于使用場景。測量本身不回答"這應該被允許嗎"的問題。

Kaggle黑客松的設計也引發爭議。參與者需要在"社區基準平臺"上測試評估方案，但平臺提供的"前沿模型陣容"由DeepMind指定。這意味著什么？評估的底層假設——哪些模型代表"當前最高水平"——已經被主辦方預設。參賽者是在測量AGI，還是在驗證DeepMind的模型排名？

工程派的替代方案更直接：別測"能力"，測"行為"。如果一個AI系統能在真實經濟環境中持續完成有價值任務、適應變化、不被輕易欺騙或利用，它就是AGI。至于內部機制像不像人腦，無關緊要。這個標準粗暴但可操作——OpenAI的"五級AGI路線圖"本質上就是這個思路，從聊天機器人到組織管理者，按經濟影響力分層。

判斷：框架有價值，但勝利條件被低估了

DeepMind的認知框架不會成為AGI測量的終極答案，但它完成了一個關鍵任務——把混亂的討論拉回到可證偽的層面。

過去兩年，"AGI"這個詞被濫用到了失去意義的邊緣。GPT-4發布時OpenAI內部有人稱它觸及AGI；Gemini 1.5發布時Google強調"原生多模態是AGI必經之路"；Claude 3的"近乎人類"的交互體驗又讓一批觀察者改口。這些判斷標準互不兼容，導致公共討論淪為修辭戰。

DeepMind的貢獻在于提供了一套"翻譯協議"。當有人說"這個模型有AGI潛力"，可以追問：在哪個認知能力維度？相對于人類基準的表現如何？泛化能力是否經過獨立驗證？這套語法不會終結爭議，但能讓爭議聚焦在證據而非立場上。

不過，框架的局限性同樣明顯。它假設認知能力是模塊化、可分離的——這符合心理學傳統，但與當前AI的發展軌跡存在張力。大語言模型的涌現能力（emergent abilities）往往跨領域出現，難以歸入單一認知類別。一個模型可能在"語言"和"推理"測試中同時跳變，這種耦合性讓模塊化評估變得困難。

更深的問題在于時間維度。DeepMind的框架是靜態快照——測的是某一時點的能力水平。但AGI的核心特征可能是動態適應性：在未知環境中持續學習、在反饋循環中自我修正。這種"開放式"智能如何測量？論文承認這是"未來工作"，但未來工作的難度可能遠超當前框架的設計假設。

黑客松的20萬美元獎金，買的不僅是評估方案，更是社區共識的雛形。如果足夠多的研究者接受這套認知語法，它將成為事實標準——無論其科學完備性如何。這是標準競爭的典型路徑：先占領話語空間，再迭代技術細節。

對于科技從業者，這件事的真正啟示在測量哲學層面。當我們說"這個AI很強"時，強在什么維度？相對于什么基準？在哪些邊界條件下成立？DeepMind的框架強迫回答這些問題，這本身就是進步。但答案不會來自任何單一框架，而來自多個測量傳統的長期競爭——認知科學、行為經濟學、工程基準、安全紅隊測試，各自提供不可通約的視角。

AGI的測量沒有銀彈。DeepMind的認知框架是一面有用的鏡子，但鏡子里的倒影是否真實，取決于你敢不敢同時打開其他燈。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.