337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

視頻深度估計新SOTA來了,163倍數據效率解鎖生成式先驗

0
分享至



視頻擴散模型(拿來做深度估計)簡直是降維打擊(overqualified)!

近日,一項剛在 arXiv 亮相的視頻深度估計新工作,在推特(X)上收獲了開源社區的不少關注。知名 AI 資訊博主AK (@_akhaliq)進行了跟進轉發;也有同行博主探討了視頻擴散模型在深度估計任務中的強大潛力,并留意到了該工作在 ScanNet 上 5.5 AbsRel 的準確度、極高的數據效率以及對超長視頻時序閃爍的改善。

面對社區的熱情反饋,研究團隊保持了學者的嚴謹,并表示:這其實是對預訓練生成式先驗一次順理成章的探索。為了方便大家親自驗證,不僅推理管線,團隊已將整套訓練代碼毫無保留地完全開源,希望能為社區提供一個扎實、可復現的基線 。



這項工作正是由香港科技大學(廣州)陳穎聰教授領銜的 EnVision Research 實驗室,聯合加州大學圣地亞哥分校、普林斯頓大學等頂尖機構,正式推出了全新的視頻深度估計框架——DVD (Deterministic Video Depth Estimation with Generative Priors)。論文共同第一作者為來自港科大(廣州)的張鴻飛、陳浩東、廖晨非與何晶。

在3D場景理解與自動駕駛等應用中,視頻深度估計一直是不可或缺的核心基石。然而,如何在動態視頻中兼顧極致的幾何細節與長時序的穩定性,始終是困擾整個計算機視覺界的難題。熟悉深度估計的讀者可能知道,EnVision Research 此前在圖像深度估計領域推出的代表作Lotus備受社區矚目(目前在 GitHub 上已攬獲近 800 Stars),而此次發布的 DVD 模型,正是將這種確定性適配在視頻深度估計領域的強勢拓展與跨越式升維。

DVD 是首個將預訓練視頻擴散模型(Video Diffusion Models)確定性地適配為“單次前向回歸器”(Single-pass depth regressors)的創新框架。它徹底擺脫了傳統生成式模型由于隨機采樣帶來的幾何幻覺,同時避免了判別式模型為了消除語義歧義而對海量標注數據的貪婪渴求。

實驗證明,DVD 僅使用了 36.7 萬幀的特定任務訓練數據——對比 Video Depth Anything (VDA) 高達 6000 萬幀的數據量,數據效率提升了驚人的 163 倍!進一步地說,DVD 成功解鎖了視頻基礎模型中蘊含的深厚幾何先驗,在零樣本(Zero-shot)性能上全面超越了現有 SOTA。



  • 論文鏈接:https://arxiv.org/abs/2603.12250
  • 項目主頁:https://dvd-project.github.io/
  • 代碼鏈接:https://github.com/EnVision-Research/DVD

1 背景介紹

在 DVD 誕生之前,主流的視頻深度估計方法主要陷入了兩種范式的固有缺陷中,形成了一個基礎性的“權衡悖論”(Trade-off):

  • 生成式模型(Generative Models,如 DepthCrafter):這類方法利用預訓練的視頻基礎模型來捕獲豐富的時空先驗,零樣本泛化能力強 。但是,由于它們依賴隨機采樣機制,會引入時序上的不確定性。這種生成性質往往優先考慮“視覺合理性”而非“幾何準確性”,從而導致嚴重的幾何幻覺(Geometric Hallucinations),無法在時間上保持精確且全局一致的幾何結構。
  • 判別式模型(Discriminative Models,如 Video Depth Anything, VDA):這類基于 ViT 的模型具有極高的推理效率和確定性輸出。然而,由于它們完全依賴密集的注釋來學習幾何,常常會陷入語義歧義(Semantic Ambiguity),例如將運動模糊或無紋理區域誤判為結構邊界。為了克服這種歧義,它們只能依賴極其龐大且多樣化的下游標注數據進行暴力堆砌。

研究團隊敏銳地提出一個核心問題:能否設計一種視頻深度估計框架,既能有效平衡判別式模型的結構穩定性與生成式模型的豐富時空先驗,又能保持高效和可擴展性?

這就是 DVD 提出的初衷。



2 DVD 方法

為了打破上述僵局,DVD 摒棄了傳統的隨機生成范式,開創性地實現了預訓練視頻擴散模型的確定性適配,直接學習從 RGB 潛變量到深度潛變量的映射。



然而,將確定性適配從靜態圖像擴展到動態視頻面臨著獨特的挑戰:樸素的回歸不僅容易導致模糊,還會遭受結構不穩定性等問題。為此,DVD 提出了三大核心設計:

2.1 將時間步作為結構錨點 (Timestep as a Structural Anchor)

在生成式預訓練中,時間步 $t$ 參數化了信噪比,指導模型關注全局結構或局部細節。DVD 創造性地將時間步從一個噪聲指示器重塑為一個結構錨點(Structural Anchor)。通過將其固定在一個最佳狀態(如 $\tau=0.5$),模型能夠完美平衡低頻的全局穩定性與高頻的空間細節,避免了幾何過度平滑。



2.2 潛在流形校正 (Latent Manifold Rectification, LMR)

當我們使用逐點回歸目標訓練模型時,極易引發“均值塌陷(Mean Collapse)”,導致模型在面對模糊或遮擋區域時洗去高頻結構細節。在時空設置下,這種退化會累積成嚴重的邊界侵蝕和運動閃爍。

為此,DVD 引入了 LMR——一種無額外參數的監督策略。LMR 強制對齊預測潛變量與目標潛變量的空間梯度(Spatial Gradient)和時序光流(Temporal Flow)。這一機制成功恢復了被回歸抹平的銳利邊界和連貫的運動動態。



2.3 全局仿射一致性 (Global Affine Coherence)

處理長視頻時,顯存限制要求必須采用滑動窗口推理,這往往會導致生成式模型出現隨機尺度漂移。

研究團隊在 DVD 中發現了一個固有的特性:VAE 解碼主要引起全局仿射變化,而非局部空間失真。因此,窗口間的差異可以很好地用線性尺度偏移變換來近似。基于這種“全局仿射一致性”,DVD 設計了一個閉式最小二乘求解器。只需通過重疊區域計算全局縮放 $s$ 和平移 $t$,即可無縫對齊相鄰窗口,完全無需復雜的潛在拼接或時間對齊模塊。



3 實驗結果

DVD 在多個真實世界基準測試中進行了廣泛的零樣本評估,其實驗結果令人振奮:

3.1 登頂的新 SOTA 幾何保真度與時序連貫性





在 ScanNet 和 KITTI 等標準數據集上,DVD 一致優于最先進的生成式(如 DepthCrafter)和判別式(如 VDA)基線模型,取得了最低的絕對相對誤差(AbsRel)。并且,LMR 機制顯著提升了精細邊界的準確性,例如將 ScanNet 的 B-F1 分數提升至 0.259。



3.2 令人信服的數據與推理效率



DVD 的一大核心優勢在于用極少的數據解鎖高保真深度。僅使用 36.7 萬幀訓練的 DVD,其性能就超越了使用 6000 萬幀數據的 VDA(數據量不到其1/160)。同時,由于避開了迭代采樣的計算瓶頸,DVD 保持了與 VDA 相當的推理速度,并提供了更高的準確率。

3.3 強大的長視頻擴展性



面對包含數千幀的復雜長視頻,生成式方法受到嚴重的尺度漂移困擾,判別式基線持續表現出語義歧義。而 DVD 憑借無參數的仿射對齊機制,確保了嚴格的結構持久性和高保真度,在長視頻推理中展現出了卓越的穩定性。



4 結論

DVD (Deterministic Video Depth Estimation) 框架的提出,是首個確定性適配預訓練視頻擴散先驗以用于單次深度估計的框架。

通過“時間步驅動的結構錨點”、“對抗時空均值塌陷的潛在流形校正 (LMR)”以及“用于長視頻仿射對齊的全局仿射一致性”三大核心設計,DVD 成功解決了“歧義與幻覺”的兩難困境。更重要的是,它證明了:我們無需再盲目堆砌上千萬級別的特定任務標注數據,僅需通過巧妙的策略,就能以163 倍的極高數據效率解鎖基礎模型中令人驚嘆的世界幾何先驗。

這項工作為動態 3D 場景理解和未來的感知技術,確立了一條高度可擴展且數據高效的全新范式。

論文、代碼及模型權重均已全部開源,歡迎廣大研究人員前往項目主頁體驗!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
最后通牒!伊朗正式宣戰:美國不道歉,我們就炸美國的大學!

最后通牒!伊朗正式宣戰:美國不道歉,我們就炸美國的大學!

殘夢重生來
2026-03-29 09:40:21
內蒙古一女神太漂亮了,這是什么逆天顏值,媲美西施并不過分

內蒙古一女神太漂亮了,這是什么逆天顏值,媲美西施并不過分

阿廢冷眼觀察所
2026-03-30 11:55:45
4月7日至12日 鄭麗文將應邀率團訪問大陸

4月7日至12日 鄭麗文將應邀率團訪問大陸

看看新聞Knews
2026-03-30 10:55:01
外交部:中方堅定支持古巴維護主權和安全

外交部:中方堅定支持古巴維護主權和安全

環球網資訊
2026-03-30 15:51:10
研究發現自慰或性行為有助于改善睡眠

研究發現自慰或性行為有助于改善睡眠

映射生活的身影
2026-03-27 19:44:25
近期,一名中國男子去泰國玩,花6000泰銖找21歲女孩,悲劇發生了

近期,一名中國男子去泰國玩,花6000泰銖找21歲女孩,悲劇發生了

鯨探所長
2026-03-01 14:38:25
中俄之間的爭議領土,現在已劃分成了兩份,但俄羅斯卻有了新想法

中俄之間的爭議領土,現在已劃分成了兩份,但俄羅斯卻有了新想法

國際阿嘗
2026-03-30 08:57:20
“湛江富豪”交棒兒子一年,“童年罐頭”歡樂家利潤暴跌七成!

“湛江富豪”交棒兒子一年,“童年罐頭”歡樂家利潤暴跌七成!

野馬財經
2026-03-29 22:23:17
41歲仍拍三級片追求刺激?從億萬富豪再到爛片女王,她在追求什么

41歲仍拍三級片追求刺激?從億萬富豪再到爛片女王,她在追求什么

林雁飛
2026-03-13 12:53:50
朱雪梅結婚才一個多月,就被婆家嫌棄太胖,大衣哥將女兒送到減肥訓練營

朱雪梅結婚才一個多月,就被婆家嫌棄太胖,大衣哥將女兒送到減肥訓練營

鄉野小珥
2026-03-30 14:42:51
國足前瞻:變陣5后衛,打平=打臉韓國,CCTV5轉播

國足前瞻:變陣5后衛,打平=打臉韓國,CCTV5轉播

足球觀察1
2026-03-30 15:14:01
無語了!梅威瑟親口證實:9月與帕奎奧二番戰仍將是一場表演賽

無語了!梅威瑟親口證實:9月與帕奎奧二番戰仍將是一場表演賽

越嶺尋蹤
2026-03-29 15:38:49
多名院士研究發現:吃一把花生,就等于吃了兩勺黃油,真的假的?

多名院士研究發現:吃一把花生,就等于吃了兩勺黃油,真的假的?

普陀動物世界
2026-03-30 05:18:10
上海男子愛上江西51歲老太,相差18歲戀愛九年不結婚

上海男子愛上江西51歲老太,相差18歲戀愛九年不結婚

浩舞纆畫
2026-03-05 18:41:23
7死2傷!黑龍江商鋪垮塌:死傷者身份披露,事發原因曝光

7死2傷!黑龍江商鋪垮塌:死傷者身份披露,事發原因曝光

老貓觀點
2026-03-30 15:24:49
李大釗犧牲后,妻子籌措安葬費,魯迅捐了五十,汪精衛捐了一千

李大釗犧牲后,妻子籌措安葬費,魯迅捐了五十,汪精衛捐了一千

云霄紀史觀
2026-03-29 20:30:22
正常的乳房到底長什么樣?(內附圖解)

正常的乳房到底長什么樣?(內附圖解)

第十一診室
2026-01-31 11:36:21
表面謙謙君子,實則流氓頭子,這四位男星表里不一

表面謙謙君子,實則流氓頭子,這四位男星表里不一

看盡落塵花q
2026-02-19 19:28:49
央視突然曝光,百臺國產機器狼群壓境,再也不用看國外臉色

央視突然曝光,百臺國產機器狼群壓境,再也不用看國外臉色

史智文道
2026-03-30 15:00:59
公司全員降薪!

公司全員降薪!

黯泉
2026-03-28 15:12:32
2026-03-30 16:36:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12640文章數 142599關注度
往期回顧 全部

科技要聞

DeepSeek性能異常問題已解決,服務恢復

頭條要聞

太原高樓起火致3死23傷 居民:曾提醒燒烤店不安全

頭條要聞

太原高樓起火致3死23傷 居民:曾提醒燒烤店不安全

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

本地
藝術
游戲
親子
教育

本地新聞

用Color Walk的方式解鎖城市春日

藝術要聞

600 年前的「產亡孤魂」,藏著中國女性最痛的記憶

100G的"3A"新游2096年發售!開發者子孫后代完成

親子要聞

女兒今天來找爸爸,讓女兒改口叫后媽

教育要聞

“這媽是唐僧轉世吧?”福建媽媽皈依式教育火了,兒子再無叛逆期

無障礙瀏覽 進入關懷版