337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司

<blockquote id="uuuuu"></blockquote>

<noscript id="uuuuu"></noscript>

<nav id="uuuuu"></nav>

<tr id="uuuuu"></tr>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網(wǎng)易官方手機郵箱應用

移動端
網(wǎng)易公開課
網(wǎng)易嚴選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

紅杉xbench評測：大模型的視覺能力，普遍低于3歲兒童

2026-01-12 11:15:48　來源: 賽博禪心

北京舉報

0

分享至

紅杉中國 xbench 和 UniPat AI 發(fā)了一個新的多模態(tài)評測集，叫 BabyVision，在這里：

核心發(fā)現(xiàn)：當前最強的多模態(tài)模型，在純視覺任務上的得分，普遍低于3歲兒童

人類準確率 94.1%
而在模型當中，Gemini 3 Pro Preview 最高，49.7%
大多數(shù)模型，則在 12-22% 區(qū)間

這個評測的設計思路有點意思，和大家分享一下

先看一道題

三件物品，沿著線分別連到哪個顏色垃圾桶？

正確答案：A-藍，B-黃，C-綠
Gemini 3 Pro Preview 的錯誤答案：A-綠，B-黃，C-藍

人類怎么做這道題？從點出發(fā)，沿著線走到終點
三歲小孩用手指頭比劃一下就能做對

模型怎么做？輸出一大段的推理過程，看起來很牛逼，但最后還是搞錯了
最頂尖的模型，在最基礎的視覺追蹤上，一敗涂地

這個評測在測什么

BabyVision 把視覺能力拆成了4大類，共22個子任務

精細辨別
分辨細微的視覺差異，比如找不同、補全拼圖、數(shù)相同圖案，共 8 個子任務

視覺追蹤
跟隨路徑、線條與運動軌跡，比如走迷宮、連線、地鐵圖找站，共 5 個子任務

空間感知
理解三維結構，比如數(shù)方塊、視角投影、折紙展開圖，共 5 個子任務

視覺模式識別
識別邏輯與幾何規(guī)律，比如旋轉(zhuǎn)規(guī)律、鏡像規(guī)律、邏輯推理，共 4 個子任務

這套測試有一個核心設計原則：嚴格控制語言依賴

題目要求很簡單，答案必須靠視覺信息本身得出
如果一道視覺題可以完全用文字描述且不丟信息，它本質(zhì)上就會退化成文本題，模型可以靠語言推理能力一路通關

BabyVision 要測的是：當語言幫不上忙的時候，模型還能不能「看懂」

然后結果就是：在BabyVision?Full上，16 位至少本科背景的測試者完成全量 388 題，人類準確率達 94.1%，大多數(shù)模型只在 12～19%之間，具體如下

為什么模型會翻車

研究團隊用了一個詞：unspeakable

這些視覺題無法在不損失信息的情況下被完整語言化
模型試圖把視覺壓縮成 token，細節(jié)在壓縮中消失

4類典型挑戰(zhàn)：

挑戰(zhàn) 1：「非語言細節(jié)」（Observing Non-Verbal Details）

拼圖/補全題里，選項差別可能只是一個微小邊界、一個局部凸起、一個像素級錯位

人類憑幾何直覺，就能秒選

模型一旦把形狀用語言概括成「像鉤子、兩個腿、差不多七八個六邊形」，細節(jié)就被抹平，選項在 token 空間里變得幾乎一樣

挑戰(zhàn) 2：追線追丟了（Manifold Understanding）

對于連線/繞線/軌跡之類的題，人類會始終鎖定一條線，穿過交叉，一路追到終點

模型往往把線翻譯成左/右/上/下的離散步驟，一遇到交叉點就出現(xiàn)分叉爆炸，容易換軌追錯線

挑戰(zhàn) 3：缺少真正的空間想象（Spatial Imagination）

三維方塊計數(shù)、視角投影、遮擋下的結構判斷
人類通常是把結構在腦中立起來，換個角度看，再數(shù)

模型容易犯兩類錯誤：漏掉隱藏塊、投影關系搞錯
所以嘛，大模型目前還是缺少穩(wěn)定的 3D 內(nèi)部表征與變換能力

挑戰(zhàn) 4：圖形規(guī)律歸納難（Visual Pattern Induction）

這類題，要求從少量視覺示例里抽象出規(guī)則，再遷移到新圖

人類做的是關系映射，真正決定正確性的是「發(fā)生了什么變化」，具體的形狀、顏色、絕對位置都可以變，只有它們的「身份」不變

模型常常盯著表面屬性（顏色、形狀），把「結構規(guī)則」誤讀成「外觀統(tǒng)計」，導致遷移時幻覺規(guī)則

BabyVision-Gen

既然文本推理不夠用，一個自然的想法：能不能讓模型像孩子一樣，用畫、圈、連線、描軌跡來作答？

BabyVision-Gen 就是這個方向的嘗試

從原基準中重新標注出 280 道適合「生成式作答」的題，要求模型輸出圖像或視頻來表達解題過程

研究團隊測了 Sora 2、Veo 3、Qwen-Image 等生成模型，比如用紅線沿著從左上角圖形延伸出的那條線，完整地描出其全程路徑，下面這個是 Sora 的實現(xiàn)

這個，則是 NanoBanana 的

初步結論：生成式推理在視覺追蹤、精細辨別等 VLM 易翻車的任務上，出現(xiàn)了「更像人類」的行為

模型會真的去畫軌跡、做標注，但整體仍然缺乏穩(wěn)定，無法做到完全正確

把視覺推理「落地到視覺操作」上，可能是補齊短板的一條路

xbench 是什么

這個我得仔細說說，和 xbench 的朋友們可太熟了，一堆有趣的逗比，新模型出來后，我總是先去找他們?nèi)枺@東西靠譜么

xbench 是紅杉中國 2025 年 5 月發(fā)布的 AI 評測基準
這是全球首個由投資機構主導，核心設計是雙軌評估體系：

AGI Tracking
驗證模型在特定能力維度的智能邊界，題目追求「足夠難、巧妙、有區(qū)分度」

Profession-Aligned
把 AI 系統(tǒng)當作數(shù)字員工，放在具體業(yè)務流程中考察效用價值

已經(jīng)發(fā)布的評測集包括 ScienceQA（研究生水平學科知識）、DeepSearch（中文互聯(lián)網(wǎng)深度搜索）、招聘和營銷兩個垂類場景

BabyVision 是 AGI Tracking 系列的新成員，專門測多模態(tài)的純視覺能力

Demis Hassabis 說過一句話：大模型可以在國際數(shù)學奧林匹克拿金牌，卻會在小學幾何題上出錯；它能生成驚艷圖像，卻不理解杯子為什么不會飄在空中

BabyVision 就是把這個 gap 量化出來

xbench 的設計思路是 Evergreen Evaluation
持續(xù)維護、動態(tài)更新，每月匯報最新模型表現(xiàn)，每季度更新評估集

作為 AGI 賽道的投資者，紅杉是有驅(qū)動力去要判斷 AI 技術何時能達到市場可落地的閾值

傳統(tǒng)評測集容易被刷爆，題目泄露導致過擬合，跟真實業(yè)務價值脫節(jié)，對于要投錢的事情，紅杉更會以足夠客觀的方式去評估

開源地址

website：
https://xbench.org/

blog：
https://unipat.ai/blog/BabyVision

github：
https://github.com/UniPat-AI/BabyVision

huggingface：
https://huggingface.co/collections/UnipatAI/babyvision

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

物理AI的「原生」時刻：原力靈機發(fā)布具身大模型DM0

機器之心Pro 2026-03-11 16:32:04
0 跟貼 0
英偉達拿出推理版VLA：Alpamayo-R1讓自動駕駛AI更會動腦子

機器之心Pro 2025-12-02 14:07:01
0 跟貼 0

別急著教AI開車，先讓它看懂世界

虎嗅APP 2026-03-21 17:36:05
0 跟貼 0

小模型讀書大模型思考：上海AI Lab提出新知識推理解耦方法DRIFT

機器之心Pro 2026-03-16 11:33:51
2 跟貼 2
AI讀不懂文檔結構？計算所重構Agentic RAG文檔推理能力

新智元 2026-03-16 11:50:10
0 跟貼 0

專訪OpenAI首席科學家：我們離“AI自己做研究”有多遠？

DeepTech深科技 2026-03-21 22:57:35
0 跟貼 0

寶媽必學，讓孩子警惕這種視覺和言語侵犯！

孩子們的安全官爸爸 2026-03-21 19:30:00
0 跟貼 0
博主因爆料索尼內(nèi)幕被踢出合作!測評資格等權益全沒了

游民星空 2026-03-21 16:13:13
3 跟貼 3

1.4萬評測57%好評率！《紅色沙漠》Steam首日折戟

游民星空 2026-03-20 19:22:17
7 跟貼 7
《立方救贖》試玩評測：空有皮囊的半成品，難承救贖之名

17173游戲網(wǎng) 2026-03-20 15:56:59
1 跟貼 1
孩子坐不住、寫作業(yè)走神？風靡歐美的“感官調(diào)節(jié)器”，幫娃把注意力拉回來！

大米和小米 2026-03-21 18:25:27
0 跟貼 0
雞蛋檢出角黃素？胖東來硬剛王海評測，輿論監(jiān)督陷入口水戰(zhàn)！

李摻窮游天下 2026-03-21 15:52:17
3 跟貼 3
百元游戲手柄怎么選？西圣VS墨將VS任天堂真實上手評測對比性能

游戲外設分享家 2026-03-21 14:45:29
0 跟貼 0
找伴侶和做投資，邏輯一模一樣

光輝視角 2026-03-19 14:03:44
1 跟貼 1
哲思｜驚人真相：你的磁場決定你的一生

散文詩歌詩詞悅讀 2026-03-19 20:13:22
0 跟貼 0
全景視覺的Depth Anything來了！

機器之心Pro 2025-12-29 16:54:58
0 跟貼 0
不僅最平整體驗也最佳 OPPO Find N6評測

泡泡網(wǎng) 2026-03-17 22:03:22
0 跟貼 0
“媽，門口要錢，我們就不進去看你了”，游客在壺口瀑布外拍視頻被投訴侵權，山西壺口瀑布景區(qū)：事發(fā)地是陜西壺口瀑布，我們也是受害者

觀威海 2026-03-18 14:47:02
38488 跟貼 38488
公公一個人在老家，飲食不規(guī)律，妞妞帶公公挖野菜包包子，不僅吃

妞妞的一家人 2026-03-21 10:30:31
27 跟貼 27
達利歐：霍爾木茲海峽大決戰(zhàn)即將爆發(fā)

極目新聞 2026-03-21 16:52:14
7785 跟貼 7785
模型飛機試飛，鏡頭一轉(zhuǎn)發(fā)現(xiàn)事不簡單，美女吃了熊心豹子膽

美妙一籮筐 2026-03-20 11:43:33
0 跟貼 0
成品油價即將迎來“五連漲”，下周一加滿一箱油可能將多花80元，周末記得加滿油

揚子晚報 2026-03-21 07:37:10
26149 跟貼 26149
普遍漲價5000，新一代SU7只漲4000，2026新車定價的深層邏輯

路咖汽車 2026-03-20 17:15:15
0 跟貼 0
絕配夫妻的八大特征，都是有規(guī)律的，看你中了幾條！

旅行者老墨 2026-03-18 10:18:40
0 跟貼 0
十個很準的規(guī)律

東北丫頭 2026-03-18 12:16:30
0 跟貼 0
宇宙的終極之問：為什么人類發(fā)明的數(shù)學，能描述整個宇宙規(guī)律？

麻將的麻麻 2026-03-21 04:05:04
0 跟貼 0
想玩機械模型？這個能發(fā)動！#金屬拼裝 #V12發(fā)動機

制造科技 2026-03-19 23:00:29
0 跟貼 0
“你已進入艷遇高發(fā)地”，河南項城知名商場內(nèi)現(xiàn)不雅標語，當?shù)厥袌霰O(jiān)管局回應：商場已自行撤下該廣告牌

哈爾濱日報 2026-03-21 14:17:00
267 跟貼 267
上海百年老店官宣閉店！曾經(jīng)去吃頓飯可要一大早就排長隊，承載了幾代人的記憶，不少阿姨爺叔的“第一次”

上觀新聞 2026-03-18 17:41:49
963 跟貼 963
匈牙利和斯洛伐克堅決反對，峰會氣氛冷淡尷尬，歐盟未通過900億歐元援烏貸款

環(huán)球網(wǎng)資訊 2026-03-21 07:07:24
136 跟貼 136
精準識別界門綱目科屬種！北大彭宇新團隊用細粒度樹先驗提升泛化

量子位 2026-03-21 17:46:20
0 跟貼 0
男子講他的手辦模型都是幾十塊買的，于是老婆用豆包詢問價錢，網(wǎng)友：最后豆包還回一句“差不多”

重慶科教融媒體 2026-03-21 12:20:29
4 跟貼 4
再見，“四字外援”！丁彥雨航退役，曾在山東男籃效力9個賽季

齊魯壹點 2026-03-21 07:12:12
74 跟貼 74
深度長文：接近光速飛行可以讓瀕死老太太永遠活下去嗎？

宇宙時空 2026-03-20 19:10:08
12 跟貼 12
熱搜第一！山姆回應“冷鮮豬肉數(shù)月前屠宰”！網(wǎng)友：今年會費剛續(xù)完

北京商報 2026-03-21 12:06:17
1582 跟貼 1582
售價20.38萬元起小鵬發(fā)布P7新涂裝，搭載第二代VLA大模型

此地無垠 2026-03-21 14:57:51
4 跟貼 4
上海女排如愿殺入總決賽，為什么提到“魔鬼主場”總沒有上海的一席之地？

上觀新聞 2026-03-21 19:56:15
142 跟貼 142
漲價！浙江姑娘腸子悔青，去年沒下單今年貴5000元！老板：可能還要漲

浙江之聲 2026-03-20 13:26:35
442 跟貼 442
河南這所高校！更名大學！

大象新聞 2026-03-21 07:45:19
247 跟貼 247
Cursor自研模型光速打臉，被爆套殼Kimi，馬斯克評論區(qū)吃瓜

量子位 2026-03-21 20:27:59
0 跟貼 0

霍爾木茲海峽，傳來大消息！以色列國防軍，最新發(fā)聲！

霍爾木茲海峽，傳來大消息！以色列國防軍，最新發(fā)聲！

數(shù)據(jù)寶

2026-03-21 18:08:37

劉少奇在長征中經(jīng)歷什么？看懂這件事，才明白他為何能成二號人物

劉少奇在長征中經(jīng)歷什么？看懂這件事，才明白他為何能成二號人物

鶴羽說個事

2026-03-21 21:21:46

重慶處級領導母親被舉報幾億房產(chǎn)：涉事領導被扒，事發(fā)全過程披露

重慶處級領導母親被舉報幾億房產(chǎn)：涉事領導被扒，事發(fā)全過程披露

博士觀察

2026-03-20 21:44:35

市委書記，任大學黨委副書記

麥可思研究

2026-03-21 15:06:10

就在今天！NBA傳來洛杉磯湖人最新消息！東契奇吐露真實想法！

就在今天！NBA傳來洛杉磯湖人最新消息！東契奇吐露真實想法！

銜春信

2026-03-21 11:14:39

海南觀光車車禍2死5傷：現(xiàn)場哀嚎聲一片，可怕畫面曝出，醫(yī)院回應

海南觀光車車禍2死5傷：現(xiàn)場哀嚎聲一片，可怕畫面曝出，醫(yī)院回應

博士觀察

2026-03-21 15:33:12

炸鍋！F-35被擊落照片是假的！真相藏在尾翼代碼里

炸鍋！F-35被擊落照片是假的！真相藏在尾翼代碼里

老馬拉車莫少裝

2026-03-20 08:56:01

全世界都被特朗普耍了？打擊伊朗只是幌子，真實目的終于浮出水面

全世界都被特朗普耍了？打擊伊朗只是幌子，真實目的終于浮出水面

夕陽渡史人

2026-01-30 09:47:08

雷軍就SU7發(fā)布會“60+60相當于120km/h”口誤致歉，感謝網(wǎng)友指正

雷軍就SU7發(fā)布會“60+60相當于120km/h”口誤致歉，感謝網(wǎng)友指正

極目新聞

2026-03-21 13:17:17

戰(zhàn)滿全部11局！吳宜澤5-6惜敗奧沙利文，無緣世界公開賽決賽

戰(zhàn)滿全部11局！吳宜澤5-6惜敗奧沙利文，無緣世界公開賽決賽

全景體育V

2026-03-21 17:24:08

上古羌人是哪來的？為何商朝抓到羌人都要對其處刑？考古發(fā)現(xiàn)答案

上古羌人是哪來的？為何商朝抓到羌人都要對其處刑？考古發(fā)現(xiàn)答案

銘記歷史呀

2026-03-20 17:44:48

冠軍榮耀，浙江省體育局為廣廈頒發(fā)CBA冠軍獎金2000萬人民幣

冠軍榮耀，浙江省體育局為廣廈頒發(fā)CBA冠軍獎金2000萬人民幣

懂球帝

2026-03-21 21:14:25

一票否決！歐盟內(nèi)部集體暴怒，德國總理當場發(fā)話：這事沒完

一票否決！歐盟內(nèi)部集體暴怒，德國總理當場發(fā)話：這事沒完

書紀文譚

2026-03-21 15:12:21

許家印遭受最大虧損的三個項目分別是什么？

許家印遭受最大虧損的三個項目分別是什么？

混沌錄

2026-03-21 15:41:07

航班起飛后遭遇鳥擊，中國南方航空通報

航班起飛后遭遇鳥擊，中國南方航空通報

界面新聞

2026-03-21 16:33:03

門口放三樣東西，再窮也能翻身！不是迷信，是老祖宗傳下的理兒

門口放三樣東西，再窮也能翻身！不是迷信，是老祖宗傳下的理兒

千秋文化

2026-03-19 21:08:53

18歲張展碩400自位列本賽季世界第一，追平霍頓里約奪金成績

18歲張展碩400自位列本賽季世界第一，追平霍頓里約奪金成績

懂球帝

2026-03-21 23:13:02

人販子梅姨落網(wǎng)：本人正面照首次曝出，抓捕全過程披露，警方回應

人販子梅姨落網(wǎng)：本人正面照首次曝出，抓捕全過程披露，警方回應

博士觀察

2026-03-21 13:39:21

帶著饑餓感入睡能減肥？醫(yī)生提醒：長期餓著睡，這些疾病會找上你

帶著饑餓感入睡能減肥？醫(yī)生提醒：長期餓著睡，這些疾病會找上你

心靈的觸動a

2026-03-20 15:55:25

4000噸稀土被轉(zhuǎn)運美國？大陸停供臺灣稀土！臺學者：不如直接統(tǒng)一

4000噸稀土被轉(zhuǎn)運美國？大陸停供臺灣稀土！臺學者：不如直接統(tǒng)一

小舟談歷史

2026-03-19 17:27:44

拜AI古佛，修賽博禪心

337文章數(shù) 49關注度

往期回顧全部

科技要聞

宇樹招股書拆解，人形機器人出貨量第一！

頭條要聞

伊朗發(fā)射3800公里射程的導彈最令美軍戰(zhàn)栗的細節(jié)披露

頭條要聞

伊朗發(fā)射3800公里射程的導彈最令美軍戰(zhàn)栗的細節(jié)披露

體育要聞

誰在決定字母哥未來？

娛樂要聞

田栩?qū)幗K于涼了？出軌風波影響惡劣

財經(jīng)要聞

通脹警報拉響，加息潮要來了？

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億全年營收767億

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數(shù)碼

本地

房產(chǎn)

公開課

軍事航空

數(shù)碼要聞

炸鍋！國產(chǎn)存儲芯片再突破！手機固態(tài)價格大跳水，內(nèi)存自由要來了

本地新聞

春色滿城關不住｜紹興春日頂流，這片櫻花海藏不住了

房產(chǎn)要聞

全城狂送1000杯咖啡！網(wǎng)易房產(chǎn)【早C計劃】，即刻啟動！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產(chǎn)30天

軍事要聞

特朗普:正考慮逐步降級對伊朗的軍事行動

© 1997-2026 網(wǎng)易公司版權所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<dd id="2uuuu"><pre id="2uuuu"></pre></dd>

<small id="2uuuu"></small>

<nav id="2uuuu"><code id="2uuuu"></code></nav>

<noscript id="2uuuu"><dd id="2uuuu"></dd></noscript>

<nav id="2uuuu"><sup id="2uuuu"></sup></nav>