337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

谷歌DeepMind發布AGI終極評分!20萬全球懸賞,撕下所有大模型偽裝

0
分享至


新智元報道

編輯:好困 Aeneas

【新智元導讀】AGI,究竟如何評判?剛剛,谷歌DeepMind發出重磅論文,直接從認知科學「借」了一套度量衡——把通用智能拆成10大認知能力,配一套三階段評估協議,還聯合Kaggle砸了20萬美金,向全球研究者懸賞:誰能測出真正的AGI?

如今的AGI,究竟到達哪一站了?

就在剛剛,谷歌DeepMind給出了AGI的終極度量衡!

這篇名為《Measuring Progress Toward AGI: A Cognitive Framework》的論文,核心主張只有一句話:別再爭AGI是什么了,先把怎么測這件事搞清楚。


論文地址:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/measuring-progress-toward-agi/measuring-progress-toward-agi-a-cognitive-framework.pdf

具體來說,AGI的評估被細化為10個關鍵的認知領域,包括感知、生成、注意力、學習、記憶、推理、元認知、執行功能、問題解決以及社會認知。

同時,谷歌DeepMind還想全球開發者,發起一場20萬美元的Kaggle黑客松。

黑客松則是把出題權直接交給全球研究者——框架我搭好了,你們來幫忙造考卷。

從「AGI分級」到「AGI體檢」

這不是DeepMind第一次嘗試給AGI畫路線圖。

2023年,同一個團隊發表了著名的「Levels of AGI」框架,把通往AGI的路拆成了5個性能等級。

從「新手」(Emerging)到「超人」(Superhuman),同時定義了6個自主性等級,從「純工具」到「完全自主」。


那篇論文的影響力很大,它給了整個行業一套共同語言,就像自動駕駛領域的L1到L5一樣,讓大家至少能在同一個坐標系里對話。

但它留下了一個巨大的空白:臺階畫好了,怎么測每一級?

新論文就是來補這個缺口的。

10大認知能力:給通用智能畫一張地圖

它的核心,是一套把通用智能拆解為10種關鍵認知能力的「認知分類法」(Cognitive Taxonomy)。

具體來說,要想評估AI和人類認知能力之間到底差多少,第一步就是要搞清楚:人類的認知都包括哪些關鍵過程。

過去很多年里,心理學、神經科學和認知科學通過做實驗、腦成像、研究病例、以及建立模型等方式,已經積累了大量相關成果。

正是基于這些研究,團隊整理出了一套認知分類體系,用來描述實現AGI所需要的核心能力。


先看8種基礎能力

1. 感知(Perception)

從環境中提取和處理感官信息。包括視覺感知(從低級的邊緣檢測到高級的場景理解)、聽覺感知(從音高辨別到語音理解)、以及AI獨有的文本感知。

LLM通過token化直接處理文本,本質上是一種人類不具備的獨特感知模態。這種「超能力」繞過了視覺,徑直抵達語言。


2. 生成(Generation)

產生文本、語音、動作(機器人控制、計算機操作)等輸出。

其中最耐人尋味的是「思維生成」,也就是產生內部思考來指導決策。

DeepMind把這一項和OpenAI的o1式推理能力掛鉤,并指出由于思維本質上是「內部的」,評估起來可能極其困難。

3. 注意力(Attention

在信息過載時,就需要把認知資源集中到關鍵事物上。

這里有個微妙的平衡:既要專注于當前目標不被干擾,又要對環境中的意外變化保持警覺。太專注會錯過危險信號,太分散又做不成事。


4. 學習(Learning)

通過經驗獲取新知識和技能。

包括概念形成、聯想學習、強化學習、觀察學習、程序性學習、語言學習六大類。

關鍵在于,真正的AGI應該能在部署后持續學習并保留新知識,而不僅僅是在訓練階段或上下文窗口內「臨時抱佛腳」。

5. 記憶(Memory)

存儲和檢索信息的能力。

包括語義記憶(世界知識)、情景記憶(特定事件)、程序性記憶(技能)、前瞻性記憶(記住未來某個時刻該做的事),以及一個容易被忽視的能力——遺忘

沒錯,能夠主動清除過時或錯誤信息,也是智能的重要組成部分。


6. 推理(Reasoning)

通過邏輯原則得出有效結論。

涵蓋演繹、歸納、溯因、類比和數學推理五種。

值得注意的是,自動模式匹配不算推理。


7. 元認知(Metacognition)

這可能是10項能力中最能拉開差距的一項。

它要求系統:

  • 知道自己知道什么、不知道什么(元認知知識);

  • 能實時監測自己的認知狀態,比如對答案的置信度是否準確(元認知監控);

  • 以及根據監控結果調整策略,比如發現自己在犯錯時主動切換方法(元認知控制)。

說得直白一點:一個不知道自己在胡說八道的AI,談什么可靠性?


8. 執行功能(Executive Functions)

支撐目標導向行為的高階能力集合。

包括目標設定、規劃、抑制控制(抵制習慣性反應,選擇更合適的行動)、認知靈活性(在不同思維方式間切換)、沖突解決、以及工作記憶。

除了以上8種「基礎構件」,框架還定義了2種「復合能力」

9. 問題解決(Problem Solving)

綜合運用感知、推理、規劃、學習等能力來解決具體問題。

下分流體推理、數學問題解決、算法問題解決、常識問題解決(包括時間推理、空間推理、因果推理、直覺物理)和知識發現。

10. 社會認知(Social Cognition)

處理和解讀社會信息、在社交場景中做出恰當反應的能力。

包括社會感知、心智理論(推斷他人的信念和意圖),以及合作、談判、說服甚至欺騙等社交技能。

值得注意的是,說服和欺騙在某些語境下,也可能構成危險能力。

總的來說,根據DeepMind的核心假設,如果一個系統在這10個維度中存在任何明顯短板,它就無法完成大多數人類能完成的現實任務。

那么,它就不是真正的「通用」智能。


三步驗出AI的真實成色

有了分類法,接下來的問題是怎么評估。

對此,谷歌提出了三階段評估協議。

第一步:認知評測。

讓AI完成覆蓋全部10種認知能力的任務。

任務設計有嚴格要求:

  • 必須針對具體認知能力(不能一個任務混測一堆東西);

  • 必須使用保密題庫;必須經獨立第三方審計;

  • 難度要有梯度(既有對人類容易但對AI難的題,也有挑戰人類極限的題);

  • 格式要多樣(選擇題、開放問答、多模態、多步驟)。

第二步:收集人類基線。

讓大量人類在完全相同的條件下做同樣的題。

相同的指令、相同的回答格式、相同的工具訪問權限。

對此DeepMind建議,樣本應該是「具有人口統計學代表性的、至少完成了高中教育的成年人」。

第三步:構建認知畫像。

把AI的表現放到人類表現的分布中定位——計算這個系統超過了多少比例的人類被試,在10個維度上畫出一張雷達圖。

為什么一定要畫雷達圖?

因為AI能力的一個核心特征是「鋸齒狀」(Jagged)的。這也是DeepMind在另一項研究中反復驗證的現象:

一個模型可能在邏輯推理上碾壓99%的人類,卻在社會認知或常識推理上連人類中位數都不如。

只看一個總分,根本看不出這種致命的偏科。而雷達圖就是用來撕下這層偽裝的。

DeepMind展示了三種假想場景:

A. 某系統在部分維度上低于人類中位數,這樣的系統在某些真實場景中必然「掉鏈子」。

B. 全部10項都超過人類中位數,至少能匹配50%的人類。

C. 全部達到第99百分位,幾乎能匹配任何人。


同時,DeepMind也沒有回避不確定性的三大來源:(1)任務本身的質量是否過關、(2)測試是否真的在測目標能力(構念效度)、(3)生成式AI固有的隨機性——同一個問題問兩次,可能得到截然不同的答案。

舊尺子為什么廢了

谷歌DeepMind的這項研究,意義究竟在哪里?

為什么以前衡量AGI的尺度,現在已經不行了?

原因就在于,現在根本無法判斷什么是AGI:GPT-4能考律師資格證,Gemini能讀十萬token的論文,Claude寫代碼比程序員還快。

但究竟哪個才叫AGI?現有的評測體系不僅接不住這個問題,而且有兩個底層邏輯已經崩了。

第一個是「小鎮做題家」困境:數據污染。

如果一個AI系統在訓練階段就已經從海量互聯網數據里「見過」了測試題的答案或解題策略,那它拿高分根本無法證明它具備通用智能,頂多算個記憶力超群的復讀機。

第二個更棘手:到底是評「模型」還是評「系統」?

以前我們測的是一個孤立的模型,但今天的AI是一個完整的系統。它帶著系統提示,能調用計算器,能執行代碼,能聯網搜索,甚至能調用其他AI模型。

比如你想測一個AI的歷史知識儲備,但這個系統卻可以隨時搜索互聯網。那你測出來的到底是它的「記憶力」還是「搜索技能」?

題庫泄漏、評測對象模糊——舊體系千瘡百孔,這正是DeepMind要從認知科學重新建一套評估框架,并把出題權交給全世界的原因。

20萬美金黑客松:全球極客集結

DeepMind坦承,在問題解決和世界知識等領域,現有的benchmark尚可一用;但在元認知、注意力、學習和社會認知這幾個深水區,幾乎是一片評測荒地。

與論文同步推出的Kaggle黑客松,精準瞄向評估缺口最大的5種認知能力:學習、元認知、注意力、執行功能、社會認知

參賽者可以利用Kaggle新推出的Community Benchmarks平臺來構建自己的評估方案,直接在一系列前沿大模型上驗證效果。


項目地址:https://www.kaggle.com/competitions/kaggle-measuring-agi

獎金總計20萬美元。

5個賽道各設2個一等獎,每個1萬美元,這是對單項深度的獎勵。

另外還有4個2.5萬美元的全場特等獎,頒給最優秀的跨賽道提交。以此鼓勵參賽者做出具有「通用性」的評估工具,而不是只在一個領域里精耕。


時間線:3月17日開放提交,4月16日截止,6月1日公布結果。


如果運轉良好,這套認知評估體系有機會成為AGI領域的公共基礎設施——就像ImageNet之于計算機視覺那樣。

框架之外:那些更棘手的問題

此外,在討論章節,團隊還主動列出了幾個認知評估「管不到」但同樣重要的維度。

處理速度。

答對是一回事,答得快又是另一回事。一個能修bug但要6小時的系統和一個1分鐘搞定的系統,實用價值天差地別。

系統傾向性。

不僅要看系統「能做什么」,還要看它「傾向于做什么」。它的風險偏好如何?價值觀是否與人類對齊?這些行為特征深刻影響系統部署后的安全性。

創造力。

創造力的核心組件(認知靈活性、世界知識、問題解決)已被分類法覆蓋,但「創造力」作為一個整體,目前很難客觀地隔離和評估。

端到端部署評估。

認知評測不能替代應用場景的實測。認知評估幫你解釋模型「為什么在這里失敗了」,部署評估幫你預測「上線后會不會出事」,兩者互補。

評估AGI,只是起點

DeepMind在最后說了一句很關鍵的話:這套框架是一個「起點」。

AI系統幾乎可以確定會發展出人類認知分類法無法完全覆蓋的能力,比如LiDAR感知、原生圖像生成這類人類根本不具備的能力。分類法本身也需要迭代。

每種認知能力和現實世界表現之間的具體關系,目前只有理論推測。

DeepMind這篇論文的意義,在于——

從今天起,AGI評估這件事從主管判斷,開始走向有理論基礎、可操作、可迭代的科學軌道。

接下來的問題只有一個,第一個在所有維度上點亮的,會是誰?

參考資料:

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/measuring-agi-cognitive-framework/

https://storage.googleapis.com/deepmind-

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
不知大家發現沒!超奇怪的用車現象:電車跑1000公里電費僅100元

不知大家發現沒!超奇怪的用車現象:電車跑1000公里電費僅100元

阿芒娛樂說
2026-03-20 04:13:07
裝錢的麻袋都不夠了!俄羅斯每天多掙500億,四年戰爭,一朝回血

裝錢的麻袋都不夠了!俄羅斯每天多掙500億,四年戰爭,一朝回血

凡知
2026-03-20 16:19:32
窮游壺口瀑布被投訴?景區:這是我司資產!網友:黃河是全民的

窮游壺口瀑布被投訴?景區:這是我司資產!網友:黃河是全民的

閱微札記
2026-03-18 20:01:25
90%天然氣賣給中國,防空全用中國裝備,這才是鐵桿伙伴!

90%天然氣賣給中國,防空全用中國裝備,這才是鐵桿伙伴!

李健政觀察
2026-03-18 10:21:20
舉報路虎別車男子稱遭說情電話狂轟,被施壓要求和解

舉報路虎別車男子稱遭說情電話狂轟,被施壓要求和解

閃電新聞
2026-03-20 11:38:18
特朗普真得氣急敗壞了,忍無可忍無須再忍。

特朗普真得氣急敗壞了,忍無可忍無須再忍。

阿七說史
2026-03-19 15:11:06
金價大跌,有品牌金飾克價1天下降62元!有人買金首飾還沒戴轉天浮虧近2000元,黃金還有中長期配置價值嗎?

金價大跌,有品牌金飾克價1天下降62元!有人買金首飾還沒戴轉天浮虧近2000元,黃金還有中長期配置價值嗎?

每日經濟新聞
2026-03-20 14:46:07
梅洛尼稱“理解”匈牙利總理涉烏立場?意方否認

梅洛尼稱“理解”匈牙利總理涉烏立場?意方否認

環球網資訊
2026-03-20 16:33:06
1977年左宗棠陵墓被毀,尸骨散落荒野,王震得知后拍桌怒斥

1977年左宗棠陵墓被毀,尸骨散落荒野,王震得知后拍桌怒斥

磊子講史
2026-03-17 16:49:47
女子舉報一領導退休的母親名下有巨額財產,被判公開道歉

女子舉報一領導退休的母親名下有巨額財產,被判公開道歉

大象新聞
2026-03-20 10:25:10
緬北詐騙傳聞真相大白2月后,李湘近況曝光,估計和你想的不一樣

緬北詐騙傳聞真相大白2月后,李湘近況曝光,估計和你想的不一樣

奇思妙想草葉君
2026-03-19 23:35:58
慘負擺爛大隊32分!雄鹿被打爆,老里弗斯氣炸:毫無斗志!

慘負擺爛大隊32分!雄鹿被打爆,老里弗斯氣炸:毫無斗志!

仰臥撐FTUer
2026-03-20 16:31:05
沒等到伊朗投降,歐洲先翻臉了!特朗普反被逼著二選一

沒等到伊朗投降,歐洲先翻臉了!特朗普反被逼著二選一

超喜歡我
2026-03-20 16:13:38
殯葬新規正式公布:3月30日實施,不買墓也合法,不用為墓地愁了

殯葬新規正式公布:3月30日實施,不買墓也合法,不用為墓地愁了

北緯的咖啡豆
2026-03-20 14:26:07
劉亦菲這身肉,扇了誰的臉?

劉亦菲這身肉,扇了誰的臉?

老吳教育課堂
2026-03-20 08:41:01
郭嘉文比梁洛施更狠,甩賣上億豪宅,與李澤楷切割,沒給他留體面

郭嘉文比梁洛施更狠,甩賣上億豪宅,與李澤楷切割,沒給他留體面

八斗小先生
2026-03-20 10:49:59
悲催!45歲,47歲,42歲,網友哭訴接連倒了3個老師,評論區炸鍋

悲催!45歲,47歲,42歲,網友哭訴接連倒了3個老師,評論區炸鍋

火山詩話
2026-03-20 06:51:22
張聞天去世3年后,中央通知開追悼會,胡耀邦致電陳云:參不參加

張聞天去世3年后,中央通知開追悼會,胡耀邦致電陳云:參不參加

文史季季紅
2026-03-20 13:10:03
情況很嚴重!又有內鬼在祖國背后捅刀子,幫美國人解決卡脖子問題

情況很嚴重!又有內鬼在祖國背后捅刀子,幫美國人解決卡脖子問題

小樾說歷史
2026-03-20 14:37:16
7只狗被偷后咬破籠子逃出,徒步17公里結伴回家,目前已安全回家

7只狗被偷后咬破籠子逃出,徒步17公里結伴回家,目前已安全回家

觀察鑒娛
2026-03-20 10:05:49
2026-03-20 17:16:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
14765文章數 66699關注度
往期回顧 全部

科技要聞

新SU7只漲4千!雷軍:真怕交車慢挨罵

頭條要聞

企業家受邀返鄉投資被拘 取保當天將億元項目給縣政府

頭條要聞

企業家受邀返鄉投資被拘 取保當天將億元項目給縣政府

體育要聞

6年前的一場悲劇,造就了“法國瓦爾迪”

娛樂要聞

蔡康永小S“康熙合體”,兩人擁抱落淚

財經要聞

賈國龍起家的西貝首店將“關閉一半”

汽車要聞

何小鵬坦白局:每月3億的“慌”與通向L4的堅定

態度原創

時尚
親子
手機
房產
本地

瞿穎好有“保鮮感”一女的

親子要聞

我感覺阿寶不是去上學的,都是每天去吃席了,每天放學回家都給我帶大堆的水果零食

手機要聞

OPPO Find N6全面開售 1TB大存儲版本火速缺貨

房產要聞

三亞安居房,悄悄爆了!

本地新聞

春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

無障礙瀏覽 進入關懷版