337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

景不動人動,OST-Bench揭示多模態大模型在線時空理解短板

0
分享至



多模態大語言模型(MLLMs)已在視覺與語言模態融合的感知與推理任務中展現出強大能力。而上海人工智能實驗室、上海交通大學、香港大學、香港中文大學的研究者們提出的的 OST-Bench, 則是從智能體探索場景的動態在線視角出發,為大模型的能力提出了新的挑戰。

對比離線 / 靜態的空間智能基準,OST-Bench 更精準地反映了具身感知在真實世界中的核心挑戰。代碼和數據均已開源。



  • 論文鏈接:https://arxiv.org/abs/2507.07984
  • 項目主頁:https://rbler1234.github.io/OSTBench.github.io/
  • Hugging Face 數據集:https://huggingface.co/datasets/rbler/OST-Bench
  • GitHub 代碼庫:https://github.com/InternRobotics/OST-Bench

離線鳥瞰全景 VS 在線移步換景

在現實世界中,我們的視野范圍是有限的,我們的眼睛在某一時刻只能聚焦于一個局部的場景。隨著不斷的探索,移步換景,我們對于全局場景逐步地形成一個更為清晰的認識;與此同時,基于當前以及歷史的觀測,我們也能感知自身的位置變化以及與之前見過的物體的位置關系 (「我離那把椅子越來越遠」「棕色的枕頭現在在我的右后方」)。

和現實中的人類一樣,在真實世界部署的智能體通常無法一次性獲取全局環境,而是依賴連續輸入的局部觀測,需要在不斷「移步換景」中完成在線感知、記憶維護與時空推理。這對導航、移動操控等具身任務尤為關鍵:比如在導航中,模型需要在當前時刻判斷「剛才見到的目標現在在我左后方」,并據此決定行動。

隨著多模態大模型在各類基準上不斷刷新紀錄,人們開始關注它們在真實世界設定下的表現。在時間維度,希望模型具備在線理解能力;在空間維度,希望模型能夠基于 2d 觀測構建 3d 空間布局認知。

然而,以往的空間智能評測多為離線、固定輸入長度,而涌現的一些在線視頻評測基準往往只考察局部或語義層面的空間感知。OST-Bench 則更貼近真實世界場景,相比以往基準具有兩大核心特點:

  1. 在線設定:模型必須在不斷增長的觀測中進行實時感知、記憶與推理;
  2. 跨時空理解:需要同時結合當前畫面與歷史信息,完成面向時間跨度的復雜空間推理

視頻演示

正如下圖所示,與傳統離線空間基準相比,在線設定對模型提出了更高、更接近真實世界的要求。



基準介紹:「移步換景」為大模型帶來了哪些新難題?

傳統的靜態場景理解主要關注物體屬性及其靜態關系。而探索的智能體中不斷改變自身位置和視角,帶來持續更新的信息類型與更豐富的問題形態。研究團隊據此將動態場景理解劃分為三大信息類別:智能體空間狀態、智能體可見信息、智能體 - 物體空間關系。基于這三類信息,研究團隊進一步設計了15 個子任務,覆蓋判斷(JUD)、估算(EST)、計數(CNT)、時間定位(TEMP)四類題型。基于規則生成 + 人工篩選,生成了基準的 10k 條測試集數據 (1.4k 個場景) 以及用于微調的 50k 條訓練集數據 (7k 個場景)。



實驗結果:大模型的在線場景時空理解答卷







  1. 主流大模型陷入困境:當前主流多模態大模型與人類存在顯著性能差距,暴露出跨時空信息推理的能力短板 (上面表 1 / 表 2)。模型的準確率隨著探索步數的持續下降說明現有范式難以適應長時序的在線設定。
  2. 空間增強模型能做好嗎?結果可能沒那么樂觀。「空間建?!箼C制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),與其基座模型相比沒有預期的顯著提升,反而在部分任務上明顯退步,并伴隨指令遵循能力的下降??傮w來看,空間增強模型雖然在特定數據分布中表現良好,但在更開放、更復雜的在線場景中仍難以穩健發揮。這也進一步體現體現了 OST-Bench 在揭示模型真實能力邊界方面的價值。



深入分析:大模型的表現診斷書

1.共性問題聚焦——大模型遇到難題更喜歡走捷徑?

通過錯誤統計我們發現模型的犯錯集中在推理步驟,而在對錯誤案例的深入分析中,研究團隊發現一個十分典型的共性現象:在面對復雜時空推理問題時,對比主動回溯歷史信息或檢索關鍵線索,模型更傾向于「就地猜測」—— 僅依據當前片段中的有限信息做出草率推斷,而非進行真正的時空整合推理。

研究團隊將這種現象稱為「時空推理捷徑(Spatio-temporal Reasoning Shortcut)」:模型看似給出了合理答案,但推理過程并無充分依據,往往只是 「表面合理」。





綠 / 紅色代表模型推理正確 / 錯誤的地方

2.跨視角推理測評子集——對于 MLLM 的專項補考

為了更精確地定位模型的能力邊界,研究團隊設計了一個針對性子集。和之前的測評不同,這次 (1) 按難度分級:研究團隊按是否需要多步的復雜推理 (如下圖) 以及是否提前提出關鍵幀,將問題劃分為四個難度等級。對比單步關聯,多步空間關聯任務要求更強的推理能力;對比只有關鍵幀輸入,全視頻輸入則需在冗長觀察中識別用于解答的關鍵幀。

(2) 補考的結果表明:復雜線索條件下的空間推理能力不足與長期記憶檢索機制薄弱是當前模型在在線時空理解任務中準確率受限的兩大關鍵因素。



3.微調實驗——提前「預習」在 OST-Bench 的幫助有多大?

為了評估模型能力的上限,研究團隊基于來自 7000 個場景的 5 萬條問答數據對多種模型進行了微調實驗。所有模型的分數均提升了超過 10%,證明「提前預習突擊」確實有效。然而,團隊也發現真正涉及復雜時空推理的任務仍難以突破 50% 的準確率,說明單純微調并不能觸及問題本質;此外,模型在部分題型上呈現出明顯的「背答案」傾向而非真正理解。微調后的模型還容易「變得不聽話」,無法穩定遵守格式對自己的答案進行解釋。

現象表明:微調可以帶來提升,但這種提升更像是「題海戰術式的熟練」,而非 「機制上的理解進步」。在這門課上,沒有結構和范式的突破,僅靠刷數據是無法真正拿高分的。要攻克 OST-Bench,必須依賴更強的模型設計或訓練策略。

總結

OST-Bench 提出了一個在線的時空場景理解基準,通過對于多個多模態大模型的評估,揭示了當前模型在面對「在線時空理解」任務時的深層短板,也為未來模型的發展指明了方向:突破復雜空間推理能力與長期記憶機制,將是下一代多模態模型邁向真實智能世界的關鍵一步。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
歐美杯告吹!阿根廷拒戰真相:滿嘴謊言,就是不想踢!

歐美杯告吹!阿根廷拒戰真相:滿嘴謊言,就是不想踢!

仰臥撐FTUer
2026-03-22 07:48:02
30萬車主被坑慘!知名寶馬4S店突發爆雷

30萬車主被坑慘!知名寶馬4S店突發爆雷

蔣東文
2026-03-20 20:36:11
戰滿全部11局!吳宜澤5-6惜敗奧沙利文,無緣世界公開賽決賽

戰滿全部11局!吳宜澤5-6惜敗奧沙利文,無緣世界公開賽決賽

全景體育V
2026-03-21 17:24:08
長春路虎哥剛被刑拘,人民網出手!多人受牽連,更嚴重的還在后面

長春路虎哥剛被刑拘,人民網出手!多人受牽連,更嚴重的還在后面

觀察鑒娛
2026-03-21 12:25:26
出大事了,俄羅斯拉響警報后,扎哈羅娃攤牌,韓國一步錯步步錯

出大事了,俄羅斯拉響警報后,扎哈羅娃攤牌,韓國一步錯步步錯

云舟史策
2026-03-22 07:20:53
繼續獲得信任,TA:凱帕將首發出戰英聯杯決賽

繼續獲得信任,TA:凱帕將首發出戰英聯杯決賽

懂球帝
2026-03-22 05:53:18
緬北詐騙傳聞真相大白2月后,李湘近況曝光,估計和你想的不一樣

緬北詐騙傳聞真相大白2月后,李湘近況曝光,估計和你想的不一樣

阿褲趣聞君
2026-03-20 20:12:31
曾經走紅,如今卻“淪為笑柄”的4種數碼產品,還是別再買了

曾經走紅,如今卻“淪為笑柄”的4種數碼產品,還是別再買了

美家指南
2026-03-06 10:31:36
在韓國呆了小半年,才發現我們對韓國的誤解,實在太深了

在韓國呆了小半年,才發現我們對韓國的誤解,實在太深了

國外三兩事
2026-03-21 08:05:05
本科學歷進央國企越來越難了

本科學歷進央國企越來越難了

戶外阿毽
2026-03-21 14:53:12
巴薩第三代后腰貝爾納爾,比布斯克茨會射門,比德容懂選位

巴薩第三代后腰貝爾納爾,比布斯克茨會射門,比德容懂選位

米奇兔
2026-03-21 11:34:03
老人再婚后第一次圓房有何感想?67歲老人傾訴:她給了我很多驚喜

老人再婚后第一次圓房有何感想?67歲老人傾訴:她給了我很多驚喜

熱心柚子姐姐
2026-03-20 19:24:24
美以襲擊伊朗核設施!伊朗武裝部隊:正在霍爾木茲海峽采取重大行動,如果打擊伊朗的基礎設施,伊朗將攻擊美以更重要、更關鍵的基礎設施

美以襲擊伊朗核設施!伊朗武裝部隊:正在霍爾木茲海峽采取重大行動,如果打擊伊朗的基礎設施,伊朗將攻擊美以更重要、更關鍵的基礎設施

每日經濟新聞
2026-03-21 20:59:09
越南選舉產生第十六屆國會代表

越南選舉產生第十六屆國會代表

澎湃新聞
2026-03-21 23:30:05
楊振寧離世5個月,翁帆遠赴英國真相曝光,藏21年的秘密瞞不住了

楊振寧離世5個月,翁帆遠赴英國真相曝光,藏21年的秘密瞞不住了

離離言幾許
2026-03-13 22:38:05
白人女性與黑人女性的體味差異,網友真實分享引發熱議

白人女性與黑人女性的體味差異,網友真實分享引發熱議

特約前排觀眾
2025-12-22 00:20:06
金價連連下跌!有人“搶底撈金” 現在是上車好時機嗎?

金價連連下跌!有人“搶底撈金” 現在是上車好時機嗎?

新京報
2026-03-21 07:57:24
馬上停止吃這種瓜,有毒、傷肝腎!一盤上桌,全家遭殃!年年出事

馬上停止吃這種瓜,有毒、傷肝腎!一盤上桌,全家遭殃!年年出事

醫學科普匯
2026-03-21 21:10:04
四川開通首條至阿塞拜疆TIR國際公路運輸線路

四川開通首條至阿塞拜疆TIR國際公路運輸線路

北青網-北京青年報
2026-03-20 15:21:01
回顧:四川一大爺強娶自己兒媳卻因此喪命,兒媳:他就是禽獸

回顧:四川一大爺強娶自己兒媳卻因此喪命,兒媳:他就是禽獸

青青會講故事
2025-01-23 17:30:02
2026-03-22 08:24:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12555文章數 142590關注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機器人出貨量第一!

頭條要聞

男子沉迷"打鳥":改裝車輛買觀鳥裝備 一年花掉上百萬

頭條要聞

男子沉迷"打鳥":改裝車輛買觀鳥裝備 一年花掉上百萬

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩寧終于涼了?出軌風波影響惡劣

財經要聞

通脹警報拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態度原創

家居
手機
數碼
游戲
軍事航空

家居要聞

時空交織 空間綺夢

手機要聞

內存大漲價倒逼手機SD卡復活 網友:今夕是何年

數碼要聞

炸鍋!國產存儲芯片再突破!手機固態價格大跳水,內存自由要來了

魔獸世界:時光服P3階段將至,新手該練什么職業,這個很重要!

軍事要聞

伊導彈擊中以核設施附近 爆炸視頻公布

無障礙瀏覽 進入關懷版