337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5在ARC-AGI-3上翻車:1%得分背后

0
分享至


2025年,當(dāng)GPT-5和Claude在ARC-AGI-2上還能拿到24%的時候,沒人想到下一代基準(zhǔn)會把所有大模型打回個位數(shù)。3月25日,ARC-AGI-3正式上線,預(yù)覽結(jié)果讓行業(yè)集體沉默:前沿大語言模型得分低于1%,而一個用CNN(卷積神經(jīng)網(wǎng)絡(luò),一種經(jīng)典圖像識別架構(gòu))加簡單圖搜索的方案,拿下了12.58%。

人類基準(zhǔn)是100%。

這不是難度升級,是游戲規(guī)則重寫。ARC-AGI-3徹底拋棄了靜態(tài)網(wǎng)格謎題,把AI扔進(jìn)沒有說明書、沒有勝利條件、甚至沒有"你在玩什么"提示的交互環(huán)境里。64×64的彩色格子,16種顏色,agent能做的就是移動、點擊、重置——然后自己琢磨該干嘛。

Fran?ois Chollet(基準(zhǔn)設(shè)計者)等了7年,終于把"通用人工智能"的試金石從紙筆考試改成了荒野求生。

從"解謎"到"生存":ARC的三次變形

2019年Chollet發(fā)布初代ARC時,設(shè)計哲學(xué)很直白:人類能秒懂的抽象推理,AI為什么不行?ARC-AGI-1給出輸入輸出網(wǎng)格對,系統(tǒng)要推斷變換規(guī)則。比如輸入是三個豎排的點,輸出變成橫排,規(guī)律是"旋轉(zhuǎn)90度"。

這套玩法在2025年被吃透了。前沿模型靠暴力工程堆到90%+,Chollet承認(rèn)"ARC-1已飽和"。2024年底的ARC-AGI-2加入組合推理——符號解釋、上下文規(guī)則應(yīng)用、多規(guī)則交互——直接把最高分壓到24%。

ARC-AGI-3的跳躍更 radical(激進(jìn)):150多個手工設(shè)計的環(huán)境,1000多個關(guān)卡,每個游戲8-10關(guān)漸進(jìn)解鎖新機制。預(yù)覽中的三個樣本足以說明跨度:ls20要求邊導(dǎo)航邊變換符號,ft09要在重疊網(wǎng)格間匹配模式,vc33則需要調(diào)節(jié)"體積"高度來命中目標(biāo)。

評分標(biāo)準(zhǔn)也換了。不再是簡單的通過/失敗,而是動作效率——AI用了多少步,對比人類基線。100%意味著全程和人類一樣精練,不多走一步冤枉路。

大模型在這里暴露的短板,和它們在ARC-AGI-2里栽的跟頭完全不同。

為什么GPT-5會低于1%?

預(yù)覽期的12份提交里,8份在私有游戲上測試。前三名全是非LLM方案。這個分布本身就很說明問題。

榜首StochasticGoose來自Tufa Labs的Dries Smit,架構(gòu)簡單到近乎樸素:CNN做動作預(yù)測,稀疏獎勵(只有通關(guān)信號),幀轉(zhuǎn)儲到內(nèi)存做離線訓(xùn)練,哈希表去重。沒有預(yù)訓(xùn)練知識,沒有世界模型,沒有鏈?zhǔn)酵评怼褪强磮D、試錯、記住什么管用。

對比之下,GPT-5和Claude的架構(gòu)假設(shè)了"有文本可讀"。它們的訓(xùn)練數(shù)據(jù)里,任務(wù)通常附帶明確指令。ARC-AGI-3的關(guān)卡設(shè)計刻意消除了這個假設(shè):agent看到的只有像素變化,聽到的只有沉默。

Chollet在發(fā)布說明里點明了四個被測試的新能力:探索(主動收集信息)、建模(構(gòu)建可泛化的世界模型)、目標(biāo)設(shè)定(無指令下識別目的)、規(guī)劃與執(zhí)行(帶修正的戰(zhàn)略行動)。這四項恰好都是當(dāng)前LLM的盲區(qū)——它們擅長在已知規(guī)則內(nèi)優(yōu)化,而非在未知環(huán)境中發(fā)現(xiàn)規(guī)則。

低于1%不是偶然失誤,是架構(gòu)層面的錯配。就像把象棋冠軍扔進(jìn)沒有棋盤的密室逃脫,他讀過的所有棋譜都幫不上忙。


12%的CNN意味著什么

StochasticGoose的成績值得拆解。CNN在2012年ImageNet奪冠后,已經(jīng)被Transformer壓制多年,在AI敘事里早就是"上一代技術(shù)"。但ARC-AGI-3的預(yù)覽結(jié)果說明:在特定約束下,經(jīng)典架構(gòu)可能比巨型語言模型更懂"從零開始"。

關(guān)鍵在"稀疏獎勵"和"狀態(tài)去重"。大模型的強化學(xué)習(xí)通常依賴密集反饋(每一步都有評分),而ARC-AGI-3只在通關(guān)時給信號。StochasticGoose用哈希表記錄"來過這里"避免循環(huán),用幀存儲實現(xiàn)離線學(xué)習(xí)——這些技巧不新,但組合起來恰好契合環(huán)境特性。

12.58%距離人類還很遠(yuǎn),但它證明了一件事:規(guī)模不是唯一解。當(dāng)前SOTA(state-of-the-art,某領(lǐng)域最優(yōu))大模型在這個基準(zhǔn)上可能嚴(yán)重 overfit(過擬合)了"有說明書的世界"。

比賽獎金池超過200萬美元,分三個賽道。官方Kaggle leaderboard目前還是空白——正式提交窗口剛打開。

200萬美元賭什么

ARC-AGI-3的獎金結(jié)構(gòu)本身就在引導(dǎo)研究方向。三個賽道分別對應(yīng)不同資源約束:公開賽道允許任意計算,受限賽道有成本上限,人類賽道要求實時交互。這種設(shè)計明顯在防范"用算力 brute-force(暴力破解)"的老路。

Chollet的長期主張是:AGI需要"高效學(xué)習(xí)新技能的能力",而非"預(yù)裝大量技能"。ARC-AGI-1的失敗在于被預(yù)訓(xùn)練知識覆蓋,ARC-AGI-2開始強調(diào)組合泛化,ARC-AGI-3直接把"先驗知識"清零——每個游戲都是全新物理規(guī)則,agent必須現(xiàn)場重建因果模型。

這和當(dāng)前 industry's bet(行業(yè)押注)存在張力。OpenAI、Anthropic、Google的路徑依賴預(yù)訓(xùn)練 scaling law(規(guī)模定律):更多數(shù)據(jù)、更多參數(shù)、更多計算。ARC-AGI-3的預(yù)覽結(jié)果暗示,這條路的邊際效益可能在特定類型的智能上趨近于零。

但也不必急于宣布LLM死刑。預(yù)覽樣本有限,12份提交里的8份私有測試可能隱藏了未公開的LLM方案。更重要的是,ARC-AGI-3的設(shè)計者本人就是LLM的批評者——Chollet多次公開質(zhì)疑"預(yù)測下一個token"能否通向AGI。基準(zhǔn)的偏見性需要納入考量。

游戲化基準(zhǔn)的連鎖反應(yīng)

ARC-AGI-3的環(huán)境設(shè)計明顯借鑒了游戲AI測試傳統(tǒng)。DeepMind的Atari成果、OpenAI的Dota 2 agent、DeepMind的StarCraft II,都證明了強化學(xué)習(xí)在封閉游戲環(huán)境中的潛力。但那些項目有明確目標(biāo)(贏比賽)、已知規(guī)則(游戲說明書)、可定義獎勵(得分/勝負(fù))。

ARC-AGI-3的 radical(激進(jìn))之處在于連這些都要agent自己發(fā)現(xiàn)。這更接近發(fā)展心理學(xué)里的"嬰兒探索"——沒有任務(wù)清單,通過互動建構(gòu)對世界的理解。

150多個手工環(huán)境的設(shè)計成本不菲。每個游戲8-10關(guān)的漸進(jìn)難度,確保agent不能靠單一策略通關(guān)。評分效率而非二元成功,懲罰"亂拳打死老師傅"的暴力嘗試。這些設(shè)計選擇把測試焦點從"知識儲備"轉(zhuǎn)向"學(xué)習(xí)速度"。

對AI安全研究,這種基準(zhǔn)也有特殊價值。對齊問題的一個核心擔(dān)憂是:AI在訓(xùn)練環(huán)境表現(xiàn)良好,但在分布外場景失效。ARC-AGI-3每個游戲都是分布外,強制測試泛化能力的下限。

開發(fā)者預(yù)覽的隱藏信息


30天預(yù)覽期的12份提交,樣本量小但結(jié)構(gòu)清晰。前三名非LLM,中間層混合方案,LLM墊底。這種分布和ARC-AGI-2形成鏡像——當(dāng)時LLM還能靠提示工程和思維鏈拿到可觀分?jǐn)?shù)。

一個可能的解釋:ARC-AGI-3的"無文本"設(shè)計直接廢除了LLM的核心優(yōu)勢。當(dāng)環(huán)境不輸出自然語言描述時,預(yù)訓(xùn)練的語言知識成為負(fù)擔(dān)而非資產(chǎn)。agent需要處理的是像素級因果推斷,這和token級預(yù)測是完全不同的計算圖。

StochasticGoose的哈希去重策略也值得注意。大模型的上下文窗口有限,而ARC-AGI-3的關(guān)卡可能需要數(shù)十步探索。顯式存儲"已訪問狀態(tài)"避免了重復(fù)探索,這種工程技巧在資源受限時可能比端到端學(xué)習(xí)更可靠。

預(yù)覽結(jié)果還暴露了一個評估盲區(qū):當(dāng)前沒有標(biāo)準(zhǔn)化的"人類效率"測量。100%基準(zhǔn)如何建立?多少人類測試者?什么背景?這些細(xì)節(jié)會影響分?jǐn)?shù)的可比性。Chollet團隊需要盡快公開方法論,否則12.58%的解讀會有歧義。

行業(yè)敘事的分叉點

GPT-5低于1%的消息,和同期發(fā)布的其他"大模型遇挫"新聞形成共振。但需要區(qū)分兩種失敗:一種是能力邊界被觸及,另一種是能力錯配被暴露。ARC-AGI-3更像是后者。

沒有證據(jù)表明LLM在可預(yù)見的未來無法適應(yīng)這類環(huán)境。多模態(tài)融合、世界模型預(yù)訓(xùn)練、神經(jīng)符號混合架構(gòu)——技術(shù)選項還很多。但預(yù)覽結(jié)果確實提出了一個尖銳問題:當(dāng)前 industry's trillion-dollar bet(行業(yè)數(shù)萬億美元押注)是否過度集中于單一架構(gòu)?

CNN的12%是一個錨點。它說明在特定約束下,"小"方案可以擊敗"大"方案。這和2012年AlexNet顛覆傳統(tǒng)計算機視覺的敘事形成有趣對照——當(dāng)年是神經(jīng)網(wǎng)絡(luò)擊敗手工特征,今天是手工工程擊敗巨型神經(jīng)網(wǎng)絡(luò)。

歷史不會簡單重復(fù),但技術(shù)范式的搖擺值得警惕。如果ARC-AGI-3的后續(xù)結(jié)果持續(xù)顯示非LLM優(yōu)勢,可能會觸發(fā)研究資源的重新分配。至少,它給了"反scaling law"陣營一個有力的數(shù)據(jù)點。

下一步看什么

Kaggle leaderboard的首次更新將是關(guān)鍵指標(biāo)。如果LLM方案迅速追上或超越CNN基準(zhǔn),說明預(yù)覽期的低分是暫時調(diào)試問題。如果差距持續(xù),可能引發(fā)更深層的架構(gòu)反思。

另一個觀察點是獲獎方案的公開細(xì)節(jié)。200萬美元獎金會吸引頂級團隊,他們的技術(shù)報告可能比分?jǐn)?shù)本身更有信息量。特別是"受限賽道"的勝出者——在計算成本約束下獲勝,直接回應(yīng)了AGI可行性的核心爭議。

Chollet本人承諾持續(xù)更新環(huán)境庫,防止過擬合。這種動態(tài)基準(zhǔn)的設(shè)計,借鑒了網(wǎng)絡(luò)安全領(lǐng)域的CTF(奪旗賽)模式:攻擊者(AI研究者)和防御者(基準(zhǔn)設(shè)計者)持續(xù)博弈。長期有效性取決于更新頻率和社區(qū)參與度。

最后,人類基準(zhǔn)的測量細(xì)節(jié)需要關(guān)注。100%是理論上限,但實際人類表現(xiàn)分布如何?新手和專家的效率差距多大?這些基線數(shù)據(jù)會顯著影響AI進(jìn)度的解讀。

3月25日,ARC-AGI-3上線當(dāng)天,一個用CNN和哈希表的方案暫時領(lǐng)先。這個畫面有點像2016年AlphaGo擊敗李世石前的序章——當(dāng)時也沒人相信神經(jīng)網(wǎng)絡(luò)能在圍棋上超越人類。但區(qū)別在于,這次領(lǐng)先的不是更龐大的模型,而是更精瘦的架構(gòu)。

如果三個月后的leaderboard上,GPT-6或Claude 4依然低于10%,我們可能需要重新問一個問題:通往AGI的路,是不是在某個岔口走錯了方向?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
Manus兩名高管禁止離境? 外交部回應(yīng)

Manus兩名高管禁止離境? 外交部回應(yīng)

每日經(jīng)濟新聞
2026-03-26 16:36:02
張雪峰6年前已離婚,獨女張姩菡只能分16.5%遺產(chǎn),現(xiàn)任妻子占大頭

張雪峰6年前已離婚,獨女張姩菡只能分16.5%遺產(chǎn),現(xiàn)任妻子占大頭

楓紅染山徑
2026-03-25 16:56:22
沙特國際電力和水務(wù)公司董事長預(yù)測中東局勢將影響全球能源轉(zhuǎn)型速度

沙特國際電力和水務(wù)公司董事長預(yù)測中東局勢將影響全球能源轉(zhuǎn)型速度

界面新聞
2026-03-26 16:51:04
末代港督彭定康夫婦,帶3個漂亮女兒回英國,29年過去今過得咋樣

末代港督彭定康夫婦,帶3個漂亮女兒回英國,29年過去今過得咋樣

攬星河的筆記
2026-03-26 00:26:09
315曝光10個最毒食黑名單!第8個你幾乎天天在吃,看完脊背發(fā)涼

315曝光10個最毒食黑名單!第8個你幾乎天天在吃,看完脊背發(fā)涼

現(xiàn)代小青青慕慕
2026-03-24 08:13:54
世預(yù)賽歐洲區(qū)開打!明晨將有8隊出局 8隊進(jìn)決賽 意大利生死戰(zhàn)

世預(yù)賽歐洲區(qū)開打!明晨將有8隊出局 8隊進(jìn)決賽 意大利生死戰(zhàn)

葉青足球世界
2026-03-26 08:47:10
2020年女子當(dāng)眾扇兒子耳光,兒子直接跳樓,如今女子已自殺身亡

2020年女子當(dāng)眾扇兒子耳光,兒子直接跳樓,如今女子已自殺身亡

觀察鑒娛
2026-03-18 09:09:10
華為、商湯等873家機構(gòu)遭AI頂會“封殺”,中國學(xué)界怒了

華為、商湯等873家機構(gòu)遭AI頂會“封殺”,中國學(xué)界怒了

智東西
2026-03-26 20:49:23
NeurIPS拒收中國論文,計算機學(xué)會宣布抵制并警告將其移出A類目錄

NeurIPS拒收中國論文,計算機學(xué)會宣布抵制并警告將其移出A類目錄

DeepTech深科技
2026-03-25 22:49:10
東契奇創(chuàng)4大紀(jì)錄仍無緣日最佳,抱歉約基奇打出前無古人的數(shù)據(jù)

東契奇創(chuàng)4大紀(jì)錄仍無緣日最佳,抱歉約基奇打出前無古人的數(shù)據(jù)

毒舌NBA
2026-03-26 13:11:59
中國移動官宣!4月30日起全國統(tǒng)一執(zhí)行,事關(guān)所有手機號

中國移動官宣!4月30日起全國統(tǒng)一執(zhí)行,事關(guān)所有手機號

Thurman在昆明
2026-03-26 13:35:46
偶遇沈月拍戲,個子不高的情況下胸大真的太吃虧了!

偶遇沈月拍戲,個子不高的情況下胸大真的太吃虧了!

TVB的四小花
2026-03-24 12:22:03
最快護士張水華辭職后,靠比賽拿名次、一年廣告費能拿200-400萬

最快護士張水華辭職后,靠比賽拿名次、一年廣告費能拿200-400萬

魔都姐姐雜談
2026-03-24 20:50:19
二百多名軍官被槍斃、撤職、處分,長津湖戰(zhàn)役中失職的志愿軍88師

二百多名軍官被槍斃、撤職、處分,長津湖戰(zhàn)役中失職的志愿軍88師

云霄紀(jì)史觀
2026-03-25 12:16:14
驚呆了!網(wǎng)傳某婦產(chǎn)醫(yī)院一少婦哭求醫(yī)生,改她兒子的血型鑒定書…

驚呆了!網(wǎng)傳某婦產(chǎn)醫(yī)院一少婦哭求醫(yī)生,改她兒子的血型鑒定書…

火山詩話
2026-03-26 11:40:00
中國電信:全面轉(zhuǎn)向token經(jīng)營!

中國電信:全面轉(zhuǎn)向token經(jīng)營!

最通信
2026-03-25 20:45:14
俄羅斯宣傳三天攻占愛沙尼亞!炮制公投,又是特別軍事行動?

俄羅斯宣傳三天攻占愛沙尼亞!炮制公投,又是特別軍事行動?

項鵬飛
2026-03-24 20:28:43
伊朗戰(zhàn)爭還將持續(xù)多久?據(jù)傳特朗普希望4-6周內(nèi)終結(jié)戰(zhàn)事

伊朗戰(zhàn)爭還將持續(xù)多久?據(jù)傳特朗普希望4-6周內(nèi)終結(jié)戰(zhàn)事

財聯(lián)社
2026-03-26 18:29:05
中方堅決扣留船只,美方及時干預(yù) 取消中企投標(biāo)資格,巴拿馬難挽

中方堅決扣留船只,美方及時干預(yù) 取消中企投標(biāo)資格,巴拿馬難挽

南宗歷史
2026-03-25 16:04:15
恭喜!“CBA第一惡人”許鐘豪,正式上任主教練,曾幫廣廈奪冠

恭喜!“CBA第一惡人”許鐘豪,正式上任主教練,曾幫廣廈奪冠

吳朑愛游泳
2026-03-26 23:22:01
2026-03-27 00:43:00
閃存獵手
閃存獵手
全網(wǎng)蹲好價的野生捕手,算力與羊毛都不可辜負(fù)。
201文章數(shù) 0關(guān)注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

旅游
藝術(shù)
教育
健康
公開課

旅游要聞

老外為羊拿鐵扎堆魔都街頭 法國游客花式夸上海

藝術(shù)要聞

都說烏克蘭美女多,看完攝影師貝格瑪 的作品我信了!

教育要聞

精準(zhǔn)研判,提質(zhì)增效丨我校召開2026屆畢業(yè)生就業(yè)工作研判會

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版