337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

DeepMind花20萬美元買答案

0
分享至

200萬美元獎金池,Kaggle黑客松,Google DeepMind正在用真金白銀買一個問題的答案:我們離通用人工智能(AGI,Artificial General Intelligence)到底還有多遠?

這不是學術圈的自嗨。當OpenAI、Anthropic、DeepMind各自宣稱自己"接近AGI"時,他們用的尺子完全不同——有的看任務完成率,有的看推理深度,有的直接看能不能騙過人類。DeepMind這次扔出的框架,試圖用認知科學給這場混亂的測量競賽建立一套通用語法。


正方:認知科學是AGI測量的必要錨點


DeepMind的論文核心論點很直接:AGI不是單一技能,而是一組認知能力的組合。他們搬出了心理學、神經科學幾十年的研究成果,把"通用智能"拆解成10項具體能力——從感知、記憶、語言,到元認知、社會認知、執行功能。

這個拆解本身就有價值。當前AI評估的混亂在于,每個人都在優化自己能測的東西:代碼能力用HumanEval,數學用GSM8K,多模態用MMMU。但這些測試有個共同盲區——它們測的是"任務完成度",而非"能力本身"。

DeepMind提出的三階段評估協議試圖解決這個問題:

第一階段,確定人類在該認知能力上的基準表現;第二階段,設計能隔離該能力的可控實驗;第三階段,對比AI與人類的泛化表現差異。

「我們假設這些認知能力對AI系統的通用智能至關重要」,論文作者Ryan Burnell和Oran Kelly寫道。這個假設的潛臺詞是:如果AI在"學習"這項能力上表現像人類,它應該能像我們一樣,用少量樣本適應新任務,而非依賴海量預訓練數據的模式匹配。

更深層的商業邏輯在這里——如果認知科學框架被行業采納,DeepMind將成為AGI測量的標準制定者。就像IEEE定義Wi-Fi協議、3GPP定義5G標準,誰掌握評估框架,誰就掌握"什么是AGI"的定義權。

黑客松的獎金分配也暴露了優先級。20萬美元中,最大的一塊流向五個"評估缺口最大"的能力:學習、元認知、注意力、執行功能、社會認知。這五個領域的共同點是——現有基準測試幾乎為零。

以元認知(metacognition,即"對思考的思考")為例。人類知道自己知道什么、不知道什么,能據此調整策略。當前大語言模型會"幻覺",恰恰是因為缺乏這種自我監控能力。但怎么測?沒有現成答案。DeepMind花錢買的就是這個。

反方:認知框架是概念陷阱,測量AGI需要工程思維

批評者的核心質疑只有一個:把人類認知結構套在AI上,是不是一種范疇錯誤?

人類智能是億萬年進化的產物,受限于生物能耗、神經傳導速度、社會協作需求。AI智能是工程優化的結果,以Transformer架構為例,它的"注意力"機制(attention mechanism)名字借自心理學,實際運作方式與人類選擇性注意幾乎無關——前者是矩陣乘法,后者是神經遞質調節。

強行對齊可能導致誤導。比如DeepMind框架中的"工作記憶"(working memory),在人類身上容量有限(7±2個組塊),但大模型的上下文窗口已從4K擴展到200萬token。用人類標準衡量,它們"記憶力"遠超人類;但從機制看,這完全是不同層面的能力。比較數字本身沒有意義。


更尖銳的批評來自AI安全研究者:認知框架可能掩蓋真正的風險。如果一個系統在社會認知測試中表現優異——能理解諷刺、識別意圖、預測他人行為——這恰恰意味著它更擅長欺騙和操縱。DeepMind的框架把"社會認知"列為中性能力,但能力的價值取決于使用場景。測量本身不回答"這應該被允許嗎"的問題。

Kaggle黑客松的設計也引發爭議。參與者需要在"社區基準平臺"上測試評估方案,但平臺提供的"前沿模型陣容"由DeepMind指定。這意味著什么?評估的底層假設——哪些模型代表"當前最高水平"——已經被主辦方預設。參賽者是在測量AGI,還是在驗證DeepMind的模型排名?

工程派的替代方案更直接:別測"能力",測"行為"。如果一個AI系統能在真實經濟環境中持續完成有價值任務、適應變化、不被輕易欺騙或利用,它就是AGI。至于內部機制像不像人腦,無關緊要。這個標準粗暴但可操作——OpenAI的"五級AGI路線圖"本質上就是這個思路,從聊天機器人到組織管理者,按經濟影響力分層。

判斷:框架有價值,但勝利條件被低估了

DeepMind的認知框架不會成為AGI測量的終極答案,但它完成了一個關鍵任務——把混亂的討論拉回到可證偽的層面。

過去兩年,"AGI"這個詞被濫用到了失去意義的邊緣。GPT-4發布時OpenAI內部有人稱它觸及AGI;Gemini 1.5發布時Google強調"原生多模態是AGI必經之路";Claude 3的"近乎人類"的交互體驗又讓一批觀察者改口。這些判斷標準互不兼容,導致公共討論淪為修辭戰。

DeepMind的貢獻在于提供了一套"翻譯協議"。當有人說"這個模型有AGI潛力",可以追問:在哪個認知能力維度?相對于人類基準的表現如何?泛化能力是否經過獨立驗證?這套語法不會終結爭議,但能讓爭議聚焦在證據而非立場上。

不過,框架的局限性同樣明顯。它假設認知能力是模塊化、可分離的——這符合心理學傳統,但與當前AI的發展軌跡存在張力。大語言模型的涌現能力(emergent abilities)往往跨領域出現,難以歸入單一認知類別。一個模型可能在"語言"和"推理"測試中同時跳變,這種耦合性讓模塊化評估變得困難。

更深的問題在于時間維度。DeepMind的框架是靜態快照——測的是某一時點的能力水平。但AGI的核心特征可能是動態適應性:在未知環境中持續學習、在反饋循環中自我修正。這種"開放式"智能如何測量?論文承認這是"未來工作",但未來工作的難度可能遠超當前框架的設計假設。

黑客松的20萬美元獎金,買的不僅是評估方案,更是社區共識的雛形。如果足夠多的研究者接受這套認知語法,它將成為事實標準——無論其科學完備性如何。這是標準競爭的典型路徑:先占領話語空間,再迭代技術細節。

對于科技從業者,這件事的真正啟示在測量哲學層面。當我們說"這個AI很強"時,強在什么維度?相對于什么基準?在哪些邊界條件下成立?DeepMind的框架強迫回答這些問題,這本身就是進步。但答案不會來自任何單一框架,而來自多個測量傳統的長期競爭——認知科學、行為經濟學、工程基準、安全紅隊測試,各自提供不可通約的視角。

AGI的測量沒有銀彈。DeepMind的認知框架是一面有用的鏡子,但鏡子里的倒影是否真實,取決于你敢不敢同時打開其他燈。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
烏度卡明白了!謝潑德上首發盤活進攻,伊森與阿門沖替補效果明顯

烏度卡明白了!謝潑德上首發盤活進攻,伊森與阿門沖替補效果明顯

籃球資訊達人
2026-03-21 11:21:39
35歲海歸碩士創業虧百萬,回家借錢被父趕出門,母親舉動看哭全網

35歲海歸碩士創業虧百萬,回家借錢被父趕出門,母親舉動看哭全網

牛牛叨史
2025-12-09 17:35:35
馬奎爾被判紅點套餐,英超官方:此次犯規全程未嘗試拼搶皮球

馬奎爾被判紅點套餐,英超官方:此次犯規全程未嘗試拼搶皮球

懂球帝
2026-03-21 06:03:16
高市早苗攤上大事了,伊朗威脅襲擊日本土,日本國內一片恐慌

高市早苗攤上大事了,伊朗威脅襲擊日本土,日本國內一片恐慌

李春光
2026-03-21 13:10:03
狠下心!卡里克必須棄用曼聯身價一哥,只為激活王牌尖刀

狠下心!卡里克必須棄用曼聯身價一哥,只為激活王牌尖刀

瀾歸序
2026-03-21 04:29:12
等我們老了,最扎心的從不是病與死,而是這無聲的“潰敗”

等我們老了,最扎心的從不是病與死,而是這無聲的“潰敗”

青蘋果sht
2026-03-18 05:35:16
巴基斯坦投懷送抱,主動給美國送稀土,中方宣布制裁巴鐵境內組織

巴基斯坦投懷送抱,主動給美國送稀土,中方宣布制裁巴鐵境內組織

嘆知
2026-03-21 11:00:20
19助攻!吉迪打破紀錄,29分險些逆轉啊,哈登一球毀掉所有

19助攻!吉迪打破紀錄,29分險些逆轉啊,哈登一球毀掉所有

球童無忌
2026-03-20 12:58:22
一夜漲超20%,有商家暫停接單!網友:大漲幅要來了?

一夜漲超20%,有商家暫停接單!網友:大漲幅要來了?

杭州之聲
2026-03-20 15:08:23
2025年湖北省出生人口下降21%,天門市出生人口逆勢增長

2025年湖北省出生人口下降21%,天門市出生人口逆勢增長

何亞福
2026-03-21 07:17:53
三亞旅游新規

三亞旅游新規

三亞發布
2026-03-21 10:25:03
央視調整3月21日午間直播中超第3輪,北京國安VS上海申花

央視調整3月21日午間直播中超第3輪,北京國安VS上海申花

阿友田侃故事
2026-03-21 11:29:47
深圳市長帶隊赴京當“HR”攬才,王傳福、顏寧現身助陣

深圳市長帶隊赴京當“HR”攬才,王傳福、顏寧現身助陣

南方都市報
2026-03-21 08:42:06
為了拿下身家暴漲的杜蘭特,斯嘉麗究竟付出了多大代價?

為了拿下身家暴漲的杜蘭特,斯嘉麗究竟付出了多大代價?

羅氏八卦
2026-03-19 18:00:03
老外問為什么中國沒有公共洗衣機?網友:外國人吃虧就吃在沒見識

老外問為什么中國沒有公共洗衣機?網友:外國人吃虧就吃在沒見識

另子維愛讀史
2026-03-18 20:53:23
迪麗熱巴和黃景瑜的孩子三歲了???

迪麗熱巴和黃景瑜的孩子三歲了!?

八卦瘋叔
2026-03-21 11:31:03
善惡有報,移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

善惡有報,移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

有范又有料
2025-12-17 14:54:06
北檢認為“監委”私用公務車無罪,從業20余年檢察官痛斥“雙標”

北檢認為“監委”私用公務車無罪,從業20余年檢察官痛斥“雙標”

海峽導報社
2026-03-20 18:09:23
徹底撕破臉!胖東來雞蛋檢測報告被曝光,王海測評發視頻稱要起訴

徹底撕破臉!胖東來雞蛋檢測報告被曝光,王海測評發視頻稱要起訴

他是她的島熊
2026-03-21 11:01:02
美國怕啥來啥,中國勘探隊關鍵一鏟,特朗普選情再受重挫

美國怕啥來啥,中國勘探隊關鍵一鏟,特朗普選情再受重挫

嫹筆牂牂
2026-03-21 10:30:15
2026-03-21 13:56:49
字節漫游指南
字節漫游指南
有態度網友ytd
181文章數 3關注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機器人出貨量第一!

頭條要聞

81歲老人呼吸衰竭 女兒曾拒絕插管:以為要失去爸爸了

頭條要聞

81歲老人呼吸衰竭 女兒曾拒絕插管:以為要失去爸爸了

體育要聞

誰在決定字母哥未來?

娛樂要聞

CMG盛典獲獎名單:章子怡高葉同獲影后

財經要聞

通脹警報拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態度原創

房產
健康
教育
時尚
家居

房產要聞

全城狂送1000杯咖啡!網易房產【早C計劃】,即刻啟動!

轉頭就暈的耳石癥,能開車上班嗎?

教育要聞

最難就業季來了!2026應屆生達1270萬人,脫下長衫成了最后的希望

今年春天一定要擁有“這件衣服”,減齡又好看!

家居要聞

時空交織 空間綺夢

無障礙瀏覽 進入關懷版