337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

紅杉xbench評測:大模型的視覺能力,普遍低于3歲兒童

0
分享至

紅杉中國 xbench 和 UniPat AI 發(fā)了一個新的多模態(tài)評測集,叫 BabyVision,在這里:

核心發(fā)現(xiàn):當前最強的多模態(tài)模型,在純視覺任務上的得分,普遍低于3歲兒童

人類準確率 94.1%
而在模型當中,Gemini 3 Pro Preview 最高,49.7%
大多數(shù)模型,則在 12-22% 區(qū)間


這個評測的設計思路有點意思,和大家分享一下

先看一道題

三件物品,沿著線分別連到哪個顏色垃圾桶?


正確答案:A-藍B-黃C-綠
Gemini 3 Pro Preview 的錯誤答案:A-綠B-黃C-藍

人類怎么做這道題?從點出發(fā),沿著線走到終點
三歲小孩用手指頭比劃一下就能做對


模型怎么做?輸出一大段的推理過程,看起來很牛逼,但最后還是搞錯了
最頂尖的模型,在最基礎的視覺追蹤上,一敗涂地

這個評測在測什么

BabyVision 把視覺能力拆成了4大類,共22個子任務


精細辨別
分辨細微的視覺差異,比如找不同、補全拼圖、數(shù)相同圖案,共 8 個子任務

視覺追蹤
跟隨路徑、線條與運動軌跡,比如走迷宮、連線、地鐵圖找站,共 5 個子任務

空間感知
理解三維結構,比如數(shù)方塊、視角投影、折紙展開圖,共 5 個子任務

視覺模式識別
識別邏輯與幾何規(guī)律,比如旋轉(zhuǎn)規(guī)律、鏡像規(guī)律、邏輯推理,共 4 個子任務

這套測試有一個核心設計原則:嚴格控制語言依賴

題目要求很簡單,答案必須靠視覺信息本身得出
如果一道視覺題可以完全用文字描述且不丟信息,它本質(zhì)上就會退化成文本題,模型可以靠語言推理能力一路通關

BabyVision 要測的是:當語言幫不上忙的時候,模型還能不能「看懂」

然后結果就是:在BabyVision?Full上,16 位至少本科背景的測試者完成全量 388 題,人類準確率達 94.1%,大多數(shù)模型只在 12~19%之間,具體如下


為什么模型會翻車

研究團隊用了一個詞:unspeakable

這些視覺題無法在不損失信息的情況下被完整語言化
模型試圖把視覺壓縮成 token,細節(jié)在壓縮中消失

4類典型挑戰(zhàn):

挑戰(zhàn) 1:「非語言細節(jié)」(Observing Non-Verbal Details)


拼圖/補全題里,選項差別可能只是一個微小邊界、一個局部凸起、一個像素級錯位

人類憑幾何直覺,就能秒選

模型一旦把形狀用語言概括成「像鉤子兩個腿差不多七八個六邊形」,細節(jié)就被抹平,選項在 token 空間里變得幾乎一樣

挑戰(zhàn) 2:追線追丟了(Manifold Understanding)


對于連線/繞線/軌跡之類的題,人類會始終鎖定一條線,穿過交叉,一路追到終點

模型往往把線翻譯成左/右/上/下的離散步驟,一遇到交叉點就出現(xiàn)分叉爆炸,容易換軌追錯線

挑戰(zhàn) 3:缺少真正的空間想象(Spatial Imagination)


三維方塊計數(shù)、視角投影、遮擋下的結構判斷
人類通常是把結構在腦中立起來,換個角度看,再數(shù)

模型容易犯兩類錯誤:漏掉隱藏塊投影關系搞錯
所以嘛,大模型目前還是缺少穩(wěn)定的 3D 內(nèi)部表征與變換能力

挑戰(zhàn) 4:圖形規(guī)律歸納難(Visual Pattern Induction)


這類題,要求從少量視覺示例里抽象出規(guī)則,再遷移到新圖

人類做的是關系映射,真正決定正確性的是「發(fā)生了什么變化」,具體的形狀、顏色、絕對位置都可以變,只有它們的「身份」不變

模型常常盯著表面屬性(顏色、形狀),把「結構規(guī)則」誤讀成「外觀統(tǒng)計」,導致遷移時幻覺規(guī)則

BabyVision-Gen

既然文本推理不夠用,一個自然的想法:能不能讓模型像孩子一樣,用畫、圈、連線、描軌跡來作答?

BabyVision-Gen 就是這個方向的嘗試

從原基準中重新標注出 280 道適合「生成式作答」的題,要求模型輸出圖像或視頻來表達解題過程

研究團隊測了 Sora 2、Veo 3、Qwen-Image 等生成模型,比如用紅線沿著從左上角圖形延伸出的那條線,完整地描出其全程路徑,下面這個是 Sora 的實現(xiàn)

這個,則是 NanoBanana 的


初步結論:生成式推理在視覺追蹤、精細辨別等 VLM 易翻車的任務上,出現(xiàn)了「更像人類」的行為

模型會真的去畫軌跡、做標注,但整體仍然缺乏穩(wěn)定,無法做到完全正確

把視覺推理「落地到視覺操作」上,可能是補齊短板的一條路

xbench 是什么

這個我得仔細說說,和 xbench 的朋友們可太熟了,一堆有趣的逗比,新模型出來后,我總是先去找他們?nèi)枺@東西靠譜么

xbench 是紅杉中國 2025 年 5 月發(fā)布的 AI 評測基準
這是全球首個由投資機構主導,核心設計是雙軌評估體系

AGI Tracking
驗證模型在特定能力維度的智能邊界,題目追求「足夠難、巧妙、有區(qū)分度」

Profession-Aligned
把 AI 系統(tǒng)當作數(shù)字員工,放在具體業(yè)務流程中考察效用價值

已經(jīng)發(fā)布的評測集包括 ScienceQA(研究生水平學科知識)、DeepSearch(中文互聯(lián)網(wǎng)深度搜索)、招聘和營銷兩個垂類場景

BabyVision 是 AGI Tracking 系列的新成員,專門測多模態(tài)的純視覺能力

Demis Hassabis 說過一句話:大模型可以在國際數(shù)學奧林匹克拿金牌,卻會在小學幾何題上出錯;它能生成驚艷圖像,卻不理解杯子為什么不會飄在空中

BabyVision 就是把這個 gap 量化出來

xbench 的設計思路是 Evergreen Evaluation
持續(xù)維護、動態(tài)更新,每月匯報最新模型表現(xiàn),每季度更新評估集

作為 AGI 賽道的投資者,紅杉是有驅(qū)動力去要判斷 AI 技術何時能達到市場可落地的閾值

傳統(tǒng)評測集容易被刷爆,題目泄露導致過擬合,跟真實業(yè)務價值脫節(jié),對于要投錢的事情,紅杉更會以足夠客觀的方式去評估

開源地址

website:
https://xbench.org/

blog:
https://unipat.ai/blog/BabyVision

github:
https://github.com/UniPat-AI/BabyVision

huggingface:
https://huggingface.co/collections/UnipatAI/babyvision

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
霍爾木茲海峽,傳來大消息!以色列國防軍,最新發(fā)聲!

霍爾木茲海峽,傳來大消息!以色列國防軍,最新發(fā)聲!

數(shù)據(jù)寶
2026-03-21 18:08:37
劉少奇在長征中經(jīng)歷什么?看懂這件事,才明白他為何能成二號人物

劉少奇在長征中經(jīng)歷什么?看懂這件事,才明白他為何能成二號人物

鶴羽說個事
2026-03-21 21:21:46
重慶處級領導母親被舉報幾億房產(chǎn):涉事領導被扒,事發(fā)全過程披露

重慶處級領導母親被舉報幾億房產(chǎn):涉事領導被扒,事發(fā)全過程披露

博士觀察
2026-03-20 21:44:35
市委書記,任大學黨委副書記

市委書記,任大學黨委副書記

麥可思研究
2026-03-21 15:06:10
就在今天!NBA傳來洛杉磯湖人最新消息!東契奇吐露真實想法!

就在今天!NBA傳來洛杉磯湖人最新消息!東契奇吐露真實想法!

銜春信
2026-03-21 11:14:39
海南觀光車車禍2死5傷:現(xiàn)場哀嚎聲一片,可怕畫面曝出,醫(yī)院回應

海南觀光車車禍2死5傷:現(xiàn)場哀嚎聲一片,可怕畫面曝出,醫(yī)院回應

博士觀察
2026-03-21 15:33:12
炸鍋!F-35被擊落照片是假的!真相藏在尾翼代碼里

炸鍋!F-35被擊落照片是假的!真相藏在尾翼代碼里

老馬拉車莫少裝
2026-03-20 08:56:01
全世界都被特朗普耍了?打擊伊朗只是幌子,真實目的終于浮出水面

全世界都被特朗普耍了?打擊伊朗只是幌子,真實目的終于浮出水面

夕陽渡史人
2026-01-30 09:47:08
雷軍就SU7發(fā)布會“60+60相當于120km/h”口誤致歉,感謝網(wǎng)友指正

雷軍就SU7發(fā)布會“60+60相當于120km/h”口誤致歉,感謝網(wǎng)友指正

極目新聞
2026-03-21 13:17:17
戰(zhàn)滿全部11局!吳宜澤5-6惜敗奧沙利文,無緣世界公開賽決賽

戰(zhàn)滿全部11局!吳宜澤5-6惜敗奧沙利文,無緣世界公開賽決賽

全景體育V
2026-03-21 17:24:08
上古羌人是哪來的?為何商朝抓到羌人都要對其處刑?考古發(fā)現(xiàn)答案

上古羌人是哪來的?為何商朝抓到羌人都要對其處刑?考古發(fā)現(xiàn)答案

銘記歷史呀
2026-03-20 17:44:48
冠軍榮耀,浙江省體育局為廣廈頒發(fā)CBA冠軍獎金2000萬人民幣

冠軍榮耀,浙江省體育局為廣廈頒發(fā)CBA冠軍獎金2000萬人民幣

懂球帝
2026-03-21 21:14:25
一票否決!歐盟內(nèi)部集體暴怒,德國總理當場發(fā)話:這事沒完

一票否決!歐盟內(nèi)部集體暴怒,德國總理當場發(fā)話:這事沒完

書紀文譚
2026-03-21 15:12:21
許家印遭受最大虧損的三個項目分別是什么?

許家印遭受最大虧損的三個項目分別是什么?

混沌錄
2026-03-21 15:41:07
航班起飛后遭遇鳥擊,中國南方航空通報

航班起飛后遭遇鳥擊,中國南方航空通報

界面新聞
2026-03-21 16:33:03
門口放三樣東西,再窮也能翻身!不是迷信,是老祖宗傳下的理兒

門口放三樣東西,再窮也能翻身!不是迷信,是老祖宗傳下的理兒

千秋文化
2026-03-19 21:08:53
18歲張展碩400自位列本賽季世界第一,追平霍頓里約奪金成績

18歲張展碩400自位列本賽季世界第一,追平霍頓里約奪金成績

懂球帝
2026-03-21 23:13:02
人販子梅姨落網(wǎng):本人正面照首次曝出,抓捕全過程披露,警方回應

人販子梅姨落網(wǎng):本人正面照首次曝出,抓捕全過程披露,警方回應

博士觀察
2026-03-21 13:39:21
帶著饑餓感入睡能減肥?醫(yī)生提醒:長期餓著睡,這些疾病會找上你

帶著饑餓感入睡能減肥?醫(yī)生提醒:長期餓著睡,這些疾病會找上你

心靈的觸動a
2026-03-20 15:55:25
4000噸稀土被轉(zhuǎn)運美國?大陸停供臺灣稀土!臺學者:不如直接統(tǒng)一

4000噸稀土被轉(zhuǎn)運美國?大陸停供臺灣稀土!臺學者:不如直接統(tǒng)一

小舟談歷史
2026-03-19 17:27:44
2026-03-22 00:31:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
337文章數(shù) 49關注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機器人出貨量第一!

頭條要聞

伊朗發(fā)射3800公里射程的導彈 最令美軍戰(zhàn)栗的細節(jié)披露

頭條要聞

伊朗發(fā)射3800公里射程的導彈 最令美軍戰(zhàn)栗的細節(jié)披露

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩?qū)幗K于涼了?出軌風波影響惡劣

財經(jīng)要聞

通脹警報拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態(tài)度原創(chuàng)

數(shù)碼
本地
房產(chǎn)
公開課
軍事航空

數(shù)碼要聞

炸鍋!國產(chǎn)存儲芯片再突破!手機固態(tài)價格大跳水,內(nèi)存自由要來了

本地新聞

春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

房產(chǎn)要聞

全城狂送1000杯咖啡!網(wǎng)易房產(chǎn)【早C計劃】,即刻啟動!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:正考慮逐步降級對伊朗的軍事行動

無障礙瀏覽 進入關懷版