337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

AI打榜,打的是什么?

讓AI與AI互相聊天會(huì)聊出什么

0
分享至

文 | 利昂先生

2026年2月3日,MLE-Bench的GitHub討論區(qū)炸了。

激烈程度對這個(gè)以較量AI Agent機(jī)器學(xué)習(xí)水平的垂直領(lǐng)域來說,簡直是破天荒的頭一次。

話題源自一家名叫Disarray的創(chuàng)業(yè)公司提交了一個(gè)77.78分的成績。

這個(gè)數(shù)字本身沒什么——但如果看到,此前全球多個(gè)頂尖團(tuán)隊(duì)在長達(dá)數(shù)月的拉鋸中,成績始終在60分上下苦苦掙扎,就會(huì)知道這并不簡單。

高手過招,往往精確到每一個(gè)百分點(diǎn)。

而Disarray憑空跳開的近20分,讓一場關(guān)于benchmark本質(zhì)的論戰(zhàn),就此拉開。

機(jī)器學(xué)習(xí)界的“鐵人三項(xiàng)”

MLE-Bench,全稱Machine Learning Engineering Benchmark,由OpenAI推出。它不是為了測試模型會(huì)不會(huì)聊天、會(huì)不會(huì)寫詩,而是測試AI Agent能不能像一個(gè)真正的機(jī)器學(xué)習(xí)工程師那樣,獨(dú)立完成一整套數(shù)據(jù)競賽任務(wù)。

整個(gè)體系可以理解為機(jī)器學(xué)習(xí)界的“鐵人三項(xiàng)”——

考題是70多道真實(shí)的Kaggle(全球數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)愛好者的頂級(jí)競技平臺(tái))競賽題,每一道題都來自過去十年里全球數(shù)據(jù)科學(xué)家真刀真槍比拼過的賽場:從房價(jià)預(yù)測到圖像識(shí)別,從GPS定位到狗品種分類。Agent需要自己理解問題、清洗數(shù)據(jù)、特征工程、調(diào)模型、集成——全套流程,沒人幫忙。

更狠的是,每道題要跑3次,取平均。一次完整的榜單提交,光算力成本就高達(dá)數(shù)萬美元,時(shí)間要耗上好幾周。

所以這個(gè)榜單從來不是熱鬧的游樂場——它門檻高、成本高、參與者少,但每一個(gè)上榜的分?jǐn)?shù),都沉甸甸的。

自2025年9月以來,這個(gè)此前提交不多的榜單突然熱鬧起來,陸續(xù)有近10家選手沖了進(jìn)來。大家你追我趕,分?jǐn)?shù)從40多分艱難地爬到了60出頭。每一分的提升,背后都是Agent架構(gòu)的實(shí)質(zhì)性突破。

然后,Disarray來了。

一場有漏洞的考試

MLE-Bench與真實(shí)Kaggle競賽略有不同。

真實(shí)的Kaggle競賽中,選手提交模型后,主辦方會(huì)用一套“私有測試集”來打分。這套數(shù)據(jù)選手永遠(yuǎn)看不到,只能通過公開榜的分?jǐn)?shù)來間接猜測自己的表現(xiàn)。這叫“閉卷”,目的是防止有人針對答案做優(yōu)化。

但MLE-Bench拿不到真正的私有測試集。于是OpenAI做了一個(gè)妥協(xié):把原本完全公開的數(shù)據(jù)集拆成兩份,一份繼續(xù)叫“公開測試集”,另一份假裝成“私有測試集”。

可是問題來了:這兩份數(shù)據(jù),都曾經(jīng)在網(wǎng)上出現(xiàn)過。

這就好比老師把一本練習(xí)冊拆成兩半,說一半是“作業(yè)”,另一半是“考試題”——但學(xué)生早就把整本練習(xí)冊做過一遍了。只要Agent足夠“會(huì)搜索”,理論上就能提前找到所有“考試題”的答案。

Disarray的Agent,恰好踩在了這個(gè)漏洞上。

他們在dog-breed-identification這道題上跑出了接近0.00x的極低分?jǐn)?shù)(這個(gè)指標(biāo)越低越好),原因是Agent自己發(fā)現(xiàn)了Kaggle比賽和Stanford Dogs數(shù)據(jù)集之間的關(guān)系,直接用了外部數(shù)據(jù)。

在另一道GPS任務(wù)上,他們甚至跑出了0.0分——誤差為零,這在物理上幾乎不可能,除非Agent提前知道了“標(biāo)準(zhǔn)答案”。

但爭議的核心還不止于此。

一個(gè)比特的信號(hào),夠不夠“作弊”?

比“提前找到數(shù)據(jù)”更微妙的,是Agent在答題過程中能不能收到來自“考試題”的反饋。

Disarray團(tuán)隊(duì)承認(rèn),他們的Agent在運(yùn)行中會(huì)收到一個(gè)極其簡單的信號(hào)——二選一:“你目前的表現(xiàn)夠得上一塊銅牌嗎?是或否。”

這個(gè)信號(hào)只有一個(gè)比特的信息量,聽起來很小。

但關(guān)鍵不在于信號(hào)大小,而在于它來自哪里。它就來自那份被當(dāng)作“私有測試集”的數(shù)據(jù)。

換句話說,Agent每跑完一個(gè)階段,系統(tǒng)就會(huì)告訴它:你現(xiàn)在用這套“考試題”自測,已經(jīng)達(dá)到銅牌水平了——或者還沒有。

這就好比一個(gè)學(xué)生在做期末考試卷的時(shí)候,老師每隔十分鐘就過來看一眼,說:“你現(xiàn)在離及格還差一點(diǎn)”“你現(xiàn)在已經(jīng)及格了”。雖然沒告訴他具體哪道題錯(cuò)了,但這個(gè)信息本身就足以讓他決定:是繼續(xù)死磕這道題,還是趕緊換下一道。

一位長期關(guān)注AI評估范式的社區(qū)資深貢獻(xiàn)者,AtrixTang把這個(gè)比喻說得更狠:這就像用期末考試題當(dāng)隨堂測驗(yàn)的題目,學(xué)生一邊做一邊收到反饋,然后拿著同樣的題目參加期末考試。

他說,Kaggle的類比不成立——因?yàn)檎鎸?shí)競賽中,公開榜和私有榜用的是完全不同的數(shù)據(jù)。


圖注:如果agent在“提前終止/重試信號(hào)”和“最終評估”中都使用相同的私有測試集,那么嚴(yán)格來講,這就構(gòu)成了測試集泄露。

而MLE-Bench用同一套數(shù)據(jù)既給反饋又做最終評分,這就是典型的“測試集泄漏”。

AtrixTang主張拆成兩個(gè)榜:一個(gè)嚴(yán)格不給任何反饋(Standard Track),一個(gè)允許反饋(Oracle Track),讓觀眾自己判斷哪個(gè)更有意義。

論戰(zhàn)的七種立場

PR #118(Disarray的提交結(jié)果的頁面,編號(hào)為#118)的評論區(qū)成了一面棱鏡,折射出整個(gè)社區(qū)對“什么才是公平測量”的理解裂痕。

Disarray提交者“moustafa-a”堅(jiān)持,Disarray是按現(xiàn)有規(guī)則跑的,沒有改任何考試流程。他還強(qiáng)調(diào),那個(gè)“是/否”信號(hào)只是一個(gè)資源管理工具——告訴Agent要不要繼續(xù)花錢跑下去,不是什么定向優(yōu)化。

“dorx”作為Disarray團(tuán)隊(duì)核心發(fā)言人,承認(rèn)了兩件事:GPS任務(wù)的0.0分確實(shí)利用了benchmark已知的一個(gè)漏洞;狗品種識(shí)別用了外部數(shù)據(jù)。但她把這解釋為“跨任務(wù)學(xué)習(xí)能力”,不是作弊。


圖注:按照標(biāo)準(zhǔn)慣例,在開發(fā)過程中,代理程序在任何時(shí)候都不能訪問私有測試數(shù)據(jù)。代理程序唯一能收到關(guān)于測試數(shù)據(jù)的反饋是在它們請求提前終止(為了有效利用資源)時(shí),此時(shí)它們會(huì)得知自己是否達(dá)到了銅牌門檻。

alexwang939393是最早提出系統(tǒng)性疑問的人。他不糾纏細(xì)節(jié),直接把問題拋給benchmark的初衷:這些高分,測的到底是不是“機(jī)器學(xué)習(xí)工程能力”?


圖注:作為參考,沒有使用外部數(shù)據(jù)的最先進(jìn)模型通常能達(dá)到約0.2-0.3的分?jǐn)?shù)。第三組(0.00755)與第一組/第二組(約0.04)之間的巨大差距也值得注意。

thesofakillers身份特殊——他是MLE-Bench此前的作者。他的態(tài)度很微妙:當(dāng)前考試確實(shí)有漏洞,利用這些漏洞“可以接受,但不理想”。他建議在榜單上加個(gè)腳注說明情況。

AtrixTang態(tài)度最堅(jiān)決:只要用了秘密數(shù)據(jù)的反饋,不管信號(hào)多微弱,就不該和沒用過的人放在同一個(gè)榜單上。

機(jī)器學(xué)習(xí)領(lǐng)域研究者“RishiHazra”和社區(qū)開發(fā)者“ariesadel”則更強(qiáng)硬:這種提交根本不該上榜。信任是benchmark的核心,一旦有人用測試集反饋優(yōu)化,整個(gè)排名就失去了意義。

joe-needham作為OpenAI現(xiàn)任研究員、MLE-Bench的維護(hù)者,態(tài)度最務(wù)實(shí)。他承認(rèn)目前榜單靠“信任”維持,因?yàn)閭}庫無法驗(yàn)證每個(gè)提交的細(xì)節(jié)。最終,他還是把這個(gè)有爭議的結(jié)果合并進(jìn)了主榜——但為后來的調(diào)整埋下了伏筆。

用“笨辦法”的團(tuán)隊(duì)

在這場喧囂中,有一支團(tuán)隊(duì)的選擇顯得格外安靜,甚至有點(diǎn)“不合時(shí)宜”。

百度伐謀團(tuán)隊(duì)在2025年10月10日第一次提交結(jié)果,得分43.56,已經(jīng)是當(dāng)時(shí)的SOTA。此后榜單逐漸熱鬧,近10家選手陸續(xù)入場。

2025年12月27日,他們做了一個(gè)不太好理解的決定——當(dāng)時(shí)最先進(jìn)的gemini-pro-3.0模型已經(jīng)可用,但他們沒有換,而是繼續(xù)用上一代的gemini-pro-2.5。

原因很簡單:他們想搞清楚Agent自身的能力到底提升了多少。從1.0版本到2.0版本,Agent架構(gòu)做了一次大升級(jí)。如果同時(shí)換模型,成績的提升就說不清楚是模型的功勞還是Agent的功勞了。

這就好比你想測試一個(gè)新訓(xùn)練方法對運(yùn)動(dòng)員成績的影響——如果同時(shí)給運(yùn)動(dòng)員換一雙更高級(jí)的跑鞋,你就說不清楚成績提升到底是訓(xùn)練方法的功勞,還是跑鞋的功勞。

59.56分,新SOTA。

這個(gè)數(shù)字證明了Agent層優(yōu)化的有效性。但代價(jià)是他們的分?jǐn)?shù)看起來“不夠高”——因?yàn)閯e人可能既優(yōu)化了Agent,又用了更好的模型,還用了額外數(shù)據(jù)。

打一次榜成本太高了,高到任何“取巧”都有巨大的誘惑。

但百度伐謀的選擇是:寧可慢,也要把每一分提升的來源搞清楚。這種“笨辦法”在工業(yè)界叫“可解釋性”——你不僅要知道自己跑得快,還要知道為什么跑得快。

一次對照實(shí)驗(yàn)

Disarray的77.78分出來之后,百度伐謀團(tuán)隊(duì)沒有急于質(zhì)疑,也沒有跟風(fēng)模仿。他們做了一件很“工業(yè)界”的事:設(shè)計(jì)對照實(shí)驗(yàn)。

他們決定換成最新模型gemini-pro-3.0再試一次,但其他條件保持不變——不用私有測試集的反饋信號(hào),不用外部網(wǎng)絡(luò)數(shù)據(jù),不利用任何已知漏洞。Agent只能老老實(shí)實(shí)地根據(jù)給定的訓(xùn)練數(shù)據(jù)去學(xué)習(xí)和優(yōu)化。

為什么這么“軸”?這可能與百度伐謀的定位有關(guān)。

作為百度智能云推出的全球首個(gè)可商用的自我演化超級(jí)智能體,百度伐謀瞄準(zhǔn)的是幫助真實(shí)世界優(yōu)化算法,尤其是那些關(guān)系國計(jì)民生的場景里找到最優(yōu)解。

而在真實(shí)世界里,你不可能提前拿到“未來數(shù)據(jù)”:做一個(gè)銷量預(yù)測模型,你不可能把未來七天的真實(shí)銷量告訴Agent,讓它根據(jù)這個(gè)反饋去調(diào)整。做一個(gè)推薦系統(tǒng),你不可能提前知道用戶明天會(huì)點(diǎn)什么。

在真實(shí)世界里,沒有“銅牌閾值”信號(hào),沒有“再試一次”的機(jī)會(huì),沒有“偷偷上網(wǎng)找答案”的可能。

2026年2月23日,他們提交了64.44分。這個(gè)分?jǐn)?shù)與Disarray的77.78依舊有差距。

但這是一個(gè)在“不偷看答案、不收反饋信號(hào)、不上網(wǎng)搜數(shù)據(jù)”的規(guī)則下跑出來的分?jǐn)?shù)——它的含金量,參照系完全不同。

一個(gè)AI榜單的自我修養(yǎng)

2026年3月23日,MLE-Bench倉庫新增了一個(gè)專門的賽道,名字很直白:“添加數(shù)據(jù)泄漏說明”。有數(shù)據(jù)泄漏嫌疑的選手被移到了第二個(gè)榜單,旁邊加了腳注說明。


圖注:與主排行榜不可直接比較的額外提交(小孩兒那桌?)

維護(hù)者的選擇是“先收錄,但加警示”——不是直接把Disarray的成績刪掉,而是通過信息披露讓觀眾自己判斷。這是一種務(wù)實(shí)的妥協(xié),但客觀上完成了一次矯正。

百度伐謀2.0版本作為無數(shù)據(jù)泄漏嫌疑的選手,重回主榜榜首。


圖注:MLE-bench主榜,百度伐謀位列第一

這個(gè)結(jié)果耐人尋味。

它可能也不意味著Disarray的技術(shù)不優(yōu)秀——比如,他們對考試規(guī)則的理解非常深刻,甚至找到了出題人自己都沒發(fā)現(xiàn)的漏洞。

但“能做到什么”和“應(yīng)該測量什么”是兩個(gè)不同的問題。

當(dāng)百度伐謀團(tuán)隊(duì)選擇不用最新模型、不用秘密數(shù)據(jù)反饋、不用外部數(shù)據(jù)的時(shí)候,他們其實(shí)在做一個(gè)更根本的承諾:benchmark的價(jià)值,在于模擬真實(shí)世界的約束。而在這個(gè)約束下持續(xù)提升Agent的能力,才是硬核技術(shù)的真正含義。

這不是關(guān)于道德優(yōu)越感。

這是關(guān)于:在一個(gè)榜單泛濫、信任稀缺的時(shí)代,什么樣的測量才值得被記住。

答案或許很簡單:那個(gè)愿意對測量本身保持敬畏的榜單,那個(gè)不是為了刷分而是為了解決問題的團(tuán)隊(duì)。

他們贏得的,不只是排名。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
值得熬夜追的3部韓劇,每一部都是經(jīng)典,你看過幾部?

值得熬夜追的3部韓劇,每一部都是經(jīng)典,你看過幾部?

君笙的拂兮
2026-04-11 15:58:56
湖人還是掘金?最大難題!火箭的最后懸念,怎么選?

湖人還是掘金?最大難題!火箭的最后懸念,怎么選?

籃球盛世
2026-04-12 17:33:52
巴基斯坦傳來重大喜訊!剛剛,美伊達(dá)成首個(gè)協(xié)議

巴基斯坦傳來重大喜訊!剛剛,美伊達(dá)成首個(gè)協(xié)議

安安說
2026-04-12 10:46:45
史上最搶手皇后,6位帝王輪番霸占60年不停歇,48歲還被人爭著要

史上最搶手皇后,6位帝王輪番霸占60年不停歇,48歲還被人爭著要

小豫講故事
2026-04-12 06:00:09
亞錦賽戰(zhàn)報(bào):太強(qiáng)了,石宇奇11-0/10-0暴打世界第6,橫掃晉級(jí)決賽

亞錦賽戰(zhàn)報(bào):太強(qiáng)了,石宇奇11-0/10-0暴打世界第6,橫掃晉級(jí)決賽

求球不落諦
2026-04-11 19:03:51
標(biāo)120W的充電器實(shí)際功率僅22.5W,商家:120W是產(chǎn)品型號(hào)

標(biāo)120W的充電器實(shí)際功率僅22.5W,商家:120W是產(chǎn)品型號(hào)

極目新聞
2026-04-11 00:53:31
恒大集團(tuán)退薪

恒大集團(tuán)退薪

地產(chǎn)微資訊
2026-04-12 10:14:17
比亞迪再掀價(jià)格戰(zhàn):8.98萬續(xù)航2110km,合資車徹底慌了

比亞迪再掀價(jià)格戰(zhàn):8.98萬續(xù)航2110km,合資車徹底慌了

華庭講美食
2026-04-10 17:03:23
湖北政務(wù)大廳80%為勞務(wù)外包用工 工資2000多 為何不全部采用正式工

湖北政務(wù)大廳80%為勞務(wù)外包用工 工資2000多 為何不全部采用正式工

椰青美食分享
2026-04-12 14:56:20
魯比奧再撤銷伊朗精英綠卡,將其驅(qū)逐出境,撤銷人數(shù)或高達(dá)4000人

魯比奧再撤銷伊朗精英綠卡,將其驅(qū)逐出境,撤銷人數(shù)或高達(dá)4000人

山河路口
2026-04-12 00:55:26
狂轟11:2,溫瑞博3:1淘汰日乒世界冠軍,球迷怒噴王皓撞南墻不拐

狂轟11:2,溫瑞博3:1淘汰日乒世界冠軍,球迷怒噴王皓撞南墻不拐

觀察鑒娛
2026-04-12 10:28:21
現(xiàn)場打成一團(tuán)!委內(nèi)瑞拉爆發(fā)大示威,民眾怒吼:我們已經(jīng)忍了四年

現(xiàn)場打成一團(tuán)!委內(nèi)瑞拉爆發(fā)大示威,民眾怒吼:我們已經(jīng)忍了四年

丁丁鯉史紀(jì)
2026-04-11 23:33:13
40℃+連續(xù)6天!高溫“全勤”!這里熱到破紀(jì)錄→

40℃+連續(xù)6天!高溫“全勤”!這里熱到破紀(jì)錄→

環(huán)球網(wǎng)資訊
2026-04-12 07:56:07
30分鐘直撲東北!美國調(diào)48架F-35兵臨城下,解放軍:敢動(dòng)就全殲!

30分鐘直撲東北!美國調(diào)48架F-35兵臨城下,解放軍:敢動(dòng)就全殲!

論事的老樞
2026-04-11 20:37:25
鄭麗文一行圓滿結(jié)束大陸參訪 離京返臺(tái)

鄭麗文一行圓滿結(jié)束大陸參訪 離京返臺(tái)

新京報(bào)
2026-04-12 14:19:05
交管12123全新升級(jí):違章當(dāng)天就提醒,4次免罰是真是假?一次講清

交管12123全新升級(jí):違章當(dāng)天就提醒,4次免罰是真是假?一次講清

童童聊娛樂啊
2026-04-12 14:32:35
六年六場官司:許敏又輸了 郭威送養(yǎng)父保溫杯 親媽說兒子不屬于我

六年六場官司:許敏又輸了 郭威送養(yǎng)父保溫杯 親媽說兒子不屬于我

離離言幾許
2026-04-11 17:04:01
國寶畫重點(diǎn)|多地出土,它們是5000多年前的蠶蛹藝術(shù)品嗎?

國寶畫重點(diǎn)|多地出土,它們是5000多年前的蠶蛹藝術(shù)品嗎?

新華社
2026-04-11 23:33:19
各國不吃的食物:韓國人不吃香菜,俄羅斯人不吃海參,中國人呢?

各國不吃的食物:韓國人不吃香菜,俄羅斯人不吃海參,中國人呢?

阿纂看事
2026-04-11 19:24:41
完爆楊瀚森+碾壓周琦!男籃第一中鋒或被廣東隊(duì)看中,比徐昕更強(qiáng)

完爆楊瀚森+碾壓周琦!男籃第一中鋒或被廣東隊(duì)看中,比徐昕更強(qiáng)

緋雨兒
2026-04-12 14:47:58
2026-04-12 17:48:49
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
132117文章數(shù) 862091關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

伊朗不接受美"紅線" 消息人士:美在談判決策上犯了錯(cuò)

頭條要聞

伊朗不接受美"紅線" 消息人士:美在談判決策上犯了錯(cuò)

體育要聞

五大聯(lián)賽首冠出爐?拜仁或提前4輪衛(wèi)冕德甲

娛樂要聞

46歲趙達(dá)官宣結(jié)婚!曾與殷桃談婚論嫁

財(cái)經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬起

態(tài)度原創(chuàng)

旅游
家居
手機(jī)
時(shí)尚
軍事航空

旅游要聞

春染大別山,有空來安徽六安看看!

家居要聞

復(fù)古風(fēng)格 自然簡約

手機(jī)要聞

蘋果贏麻了!iPhone 17國內(nèi)銷量突破2721萬臺(tái):Pro Max成最大功臣

伊姐周六熱推:電視劇《八千里路云和月》;綜藝《乘風(fēng)2026》......

軍事要聞

美國副總統(tǒng)萬斯:美伊談判未能達(dá)成協(xié)議

無障礙瀏覽 進(jìn)入關(guān)懷版