網易首頁 > 網易號 > 正文申請入駐

視頻深度估計新SOTA來了，163倍數據效率解鎖生成式先驗

2026-03-30 11:36:53　來源: 機器之心Pro

河北舉報

分享至

視頻擴散模型（拿來做深度估計）簡直是降維打擊（overqualified）！

近日，一項剛在 arXiv 亮相的視頻深度估計新工作，在推特（X）上收獲了開源社區的不少關注。知名 AI 資訊博主AK (@_akhaliq)進行了跟進轉發；也有同行博主探討了視頻擴散模型在深度估計任務中的強大潛力，并留意到了該工作在 ScanNet 上 5.5 AbsRel 的準確度、極高的數據效率以及對超長視頻時序閃爍的改善。

面對社區的熱情反饋，研究團隊保持了學者的嚴謹，并表示：這其實是對預訓練生成式先驗一次順理成章的探索。為了方便大家親自驗證，不僅推理管線，團隊已將整套訓練代碼毫無保留地完全開源，希望能為社區提供一個扎實、可復現的基線。

這項工作正是由香港科技大學（廣州）陳穎聰教授領銜的 EnVision Research 實驗室，聯合加州大學圣地亞哥分校、普林斯頓大學等頂尖機構，正式推出了全新的視頻深度估計框架——DVD (Deterministic Video Depth Estimation with Generative Priors)。論文共同第一作者為來自港科大（廣州）的張鴻飛、陳浩東、廖晨非與何晶。

在3D場景理解與自動駕駛等應用中，視頻深度估計一直是不可或缺的核心基石。然而，如何在動態視頻中兼顧極致的幾何細節與長時序的穩定性，始終是困擾整個計算機視覺界的難題。熟悉深度估計的讀者可能知道，EnVision Research 此前在圖像深度估計領域推出的代表作Lotus備受社區矚目（目前在 GitHub 上已攬獲近 800 Stars），而此次發布的 DVD 模型，正是將這種確定性適配在視頻深度估計領域的強勢拓展與跨越式升維。

DVD 是首個將預訓練視頻擴散模型（Video Diffusion Models）確定性地適配為“單次前向回歸器”（Single-pass depth regressors）的創新框架。它徹底擺脫了傳統生成式模型由于隨機采樣帶來的幾何幻覺，同時避免了判別式模型為了消除語義歧義而對海量標注數據的貪婪渴求。

實驗證明，DVD 僅使用了 36.7 萬幀的特定任務訓練數據——對比 Video Depth Anything (VDA) 高達 6000 萬幀的數據量，數據效率提升了驚人的 163 倍！進一步地說，DVD 成功解鎖了視頻基礎模型中蘊含的深厚幾何先驗，在零樣本（Zero-shot）性能上全面超越了現有 SOTA。

論文鏈接：https://arxiv.org/abs/2603.12250
項目主頁：https://dvd-project.github.io/
代碼鏈接：https://github.com/EnVision-Research/DVD

1 背景介紹

在 DVD 誕生之前，主流的視頻深度估計方法主要陷入了兩種范式的固有缺陷中，形成了一個基礎性的“權衡悖論”（Trade-off）：

生成式模型（Generative Models，如 DepthCrafter）：這類方法利用預訓練的視頻基礎模型來捕獲豐富的時空先驗，零樣本泛化能力強。但是，由于它們依賴隨機采樣機制，會引入時序上的不確定性。這種生成性質往往優先考慮“視覺合理性”而非“幾何準確性”，從而導致嚴重的幾何幻覺（Geometric Hallucinations），無法在時間上保持精確且全局一致的幾何結構。
判別式模型（Discriminative Models，如 Video Depth Anything, VDA）：這類基于 ViT 的模型具有極高的推理效率和確定性輸出。然而，由于它們完全依賴密集的注釋來學習幾何，常常會陷入語義歧義（Semantic Ambiguity），例如將運動模糊或無紋理區域誤判為結構邊界。為了克服這種歧義，它們只能依賴極其龐大且多樣化的下游標注數據進行暴力堆砌。

研究團隊敏銳地提出一個核心問題：能否設計一種視頻深度估計框架，既能有效平衡判別式模型的結構穩定性與生成式模型的豐富時空先驗，又能保持高效和可擴展性？

這就是 DVD 提出的初衷。

2 DVD 方法

為了打破上述僵局，DVD 摒棄了傳統的隨機生成范式，開創性地實現了預訓練視頻擴散模型的確定性適配，直接學習從 RGB 潛變量到深度潛變量的映射。

然而，將確定性適配從靜態圖像擴展到動態視頻面臨著獨特的挑戰：樸素的回歸不僅容易導致模糊，還會遭受結構不穩定性等問題。為此，DVD 提出了三大核心設計：

2.1 將時間步作為結構錨點 (Timestep as a Structural Anchor)

在生成式預訓練中，時間步 $t$ 參數化了信噪比，指導模型關注全局結構或局部細節。DVD 創造性地將時間步從一個噪聲指示器重塑為一個結構錨點（Structural Anchor）。通過將其固定在一個最佳狀態（如 $\tau=0.5$），模型能夠完美平衡低頻的全局穩定性與高頻的空間細節，避免了幾何過度平滑。

2.2 潛在流形校正 (Latent Manifold Rectification, LMR)

當我們使用逐點回歸目標訓練模型時，極易引發“均值塌陷（Mean Collapse）”，導致模型在面對模糊或遮擋區域時洗去高頻結構細節。在時空設置下，這種退化會累積成嚴重的邊界侵蝕和運動閃爍。

為此，DVD 引入了 LMR——一種無額外參數的監督策略。LMR 強制對齊預測潛變量與目標潛變量的空間梯度（Spatial Gradient）和時序光流（Temporal Flow）。這一機制成功恢復了被回歸抹平的銳利邊界和連貫的運動動態。

2.3 全局仿射一致性 (Global Affine Coherence)

處理長視頻時，顯存限制要求必須采用滑動窗口推理，這往往會導致生成式模型出現隨機尺度漂移。

研究團隊在 DVD 中發現了一個固有的特性：VAE 解碼主要引起全局仿射變化，而非局部空間失真。因此，窗口間的差異可以很好地用線性尺度偏移變換來近似。基于這種“全局仿射一致性”，DVD 設計了一個閉式最小二乘求解器。只需通過重疊區域計算全局縮放 $s$ 和平移 $t$，即可無縫對齊相鄰窗口，完全無需復雜的潛在拼接或時間對齊模塊。

3 實驗結果

DVD 在多個真實世界基準測試中進行了廣泛的零樣本評估，其實驗結果令人振奮：

3.1 登頂的新 SOTA 幾何保真度與時序連貫性

在 ScanNet 和 KITTI 等標準數據集上，DVD 一致優于最先進的生成式（如 DepthCrafter）和判別式（如 VDA）基線模型，取得了最低的絕對相對誤差（AbsRel）。并且，LMR 機制顯著提升了精細邊界的準確性，例如將 ScanNet 的 B-F1 分數提升至 0.259。

3.2 令人信服的數據與推理效率

DVD 的一大核心優勢在于用極少的數據解鎖高保真深度。僅使用 36.7 萬幀訓練的 DVD，其性能就超越了使用 6000 萬幀數據的 VDA（數據量不到其1/160）。同時，由于避開了迭代采樣的計算瓶頸，DVD 保持了與 VDA 相當的推理速度，并提供了更高的準確率。

3.3 強大的長視頻擴展性

面對包含數千幀的復雜長視頻，生成式方法受到嚴重的尺度漂移困擾，判別式基線持續表現出語義歧義。而 DVD 憑借無參數的仿射對齊機制，確保了嚴格的結構持久性和高保真度，在長視頻推理中展現出了卓越的穩定性。

4 結論

DVD (Deterministic Video Depth Estimation) 框架的提出，是首個確定性適配預訓練視頻擴散先驗以用于單次深度估計的框架。

通過“時間步驅動的結構錨點”、“對抗時空均值塌陷的潛在流形校正 (LMR)”以及“用于長視頻仿射對齊的全局仿射一致性”三大核心設計，DVD 成功解決了“歧義與幻覺”的兩難困境。更重要的是，它證明了：我們無需再盲目堆砌上千萬級別的特定任務標注數據，僅需通過巧妙的策略，就能以163 倍的極高數據效率解鎖基礎模型中令人驚嘆的世界幾何先驗。

這項工作為動態 3D 場景理解和未來的感知技術，確立了一條高度可擴展且數據高效的全新范式。

論文、代碼及模型權重均已全部開源，歡迎廣大研究人員前往項目主頁體驗！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.