337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

港中文薛天帆團隊:實現 4K 全景視頻生成,普通視頻也能「長出空間」丨CVPR 2026

0
分享至


CubeComposer:一種基于時空自回歸的360°視頻生成框架,兼顧清晰度、連貫性與沉浸感。

作者丨鄭佳美

編輯丨岑 峰

很多人都經歷過這樣一種落差?,F實里的空間是立體的,是包圍人的,是可以轉身、抬頭、回望的,可一旦被手機或相機拍成視頻,世界立刻被壓縮成一個窄窄的取景框。

暴雨來臨前的天空并不只在鏡頭正前方,深夜街區的壓迫感也不只來自路面,商場中庭、地下車站、展館大廳、建筑內部,這些真正讓人產生現場感的東西,往往恰恰存在于鏡頭之外。我們記錄下了事件,卻沒有真正留住空間,保存了畫面,卻沒有保存身處其中的感覺。

這也是今天沉浸式內容產業最真實的困境之一。大家已經越來越明確地意識到,未來的視頻不只是給人看,更是給人進入、環視和停留的。VR、數字展陳、虛擬空間、文旅體驗、游戲場景、線上看房、遠程教育,這些領域真正需要的都不是普通平面視頻,而是能夠承載空間感、方向感和臨場感的全景內容。

問題在于,需求已經跑在前面,生產方式卻還停在后面。要拍攝高質量 360° 視頻,往往仍要依賴專門設備、多機位系統、復雜拼接流程和高昂成本,真正能穩定產出的人和機構始終有限。也就是說,沉浸式內容的想象已經很豐富,但它的供給能力并沒有跟上。

這也是沉浸式內容行業一直沒有被真正做大的關鍵原因。市場越來越需要 360° 視頻,VR、虛擬空間、數字展陳、互動體驗都在等更豐富的內容供給,可現實生產仍然依賴昂貴設備、復雜流程和高成本制作。大家都知道普通視頻是最豐富、最便宜、最容易獲取的素材,但怎樣把它真正擴展成高質量全景視頻,始終是行業里最難啃的問題之一。

正是在這樣的背景下,香港中文大學的薛天帆團隊提出了CubeComposer,并在論文《CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video》中,試圖回答一個真正有行業分量的問題,也就是普通視角視頻能否被直接擴展成原生 4K 的 360° 視頻,而且這種擴展不是表面上的放大,不是看起來清楚一點,而是能夠在空間連續性、時間穩定性和整體真實感上都站得住。

這件事可以想得更具體一點。以后一個商場空間的宣傳視頻,也許不必再靠專門全景設備拍攝;一段城市夜景素材,也不只是單一方向的記錄,而可能被擴展成可以環視的沉浸式場景;很多原本只能平面觀看的內容,未來都有機會變成能讓人重新進入其中的空間體驗。

CubeComposer 的價值,也正是在這里。它不是單純把模型性能往上推了一點,而是在普通視頻如何變成沉浸式內容這件事上,給出了一條更接近現實應用的路。


論文鏈接:https://arxiv.org/pdf/2603.04291

01


真正拉開差距的,不只是分辨率

研究團隊在兩個數據集上對方法進行了測試,分別是自建的 4K360Vid 和公開數據集 ODV360。評價指標包括 LPIPS,數值越低表示結果越接近真實;CLIP,數值越高表示語義一致性越強;FID 和 FVD,用于衡量生成質量;以及 VBench 中的美觀度、清晰度和一致性。

在 4K360Vid 上,與最強基線 Argus 相比,CubeComposer 的 LPIPS 從 0.4074 降到 0.3696,CLIP 從 0.8858 提高到 0.9234,FID 從 141 降到 119,FVD 從 4.07 降到 3.90,說明生成結果在感知質量、語義一致性以及視頻穩定性上都有明顯提升。

進一步看最關鍵的 4K 版本,FVD 繼續降到 2.22,清晰度指標 I.Q. 提升到 0.56 以上,美觀度指標 A.Q. 提升到 0.40 以上,這說明分辨率更高的同時,質量不但沒有下降,反而進一步提升。

在 ODV360 上也呈現出同樣趨勢。LPIPS 大約從 0.43 降到 0.42,CLIP 從大約 0.88 提升到 0.90 以上,FID 從大約 140 降到 123,FVD 更是從 Argus 的 12 以上降到 CubeComposer 的 3.5。這里尤其值得注意的是,FVD 從 12 降到 3.5,反映出視頻時序穩定性和整體連貫性出現了非常顯著的提升。


研究人員還比較了這種方法與超分辨率方案之間的差別。以往常見做法是先生成 1K 視頻,再用 VEnhancer 放大到 2K,但這種方式并沒有真正帶來更高質量的結果。例如 FID 會從 141 上升到 168,指標反而變差,視覺效果也更不自然。這說明后處理放大并不等于真正的高分辨率生成,CubeComposer體現的是原生高質量,而不是放大之后形成的表面清晰。

除了定量結果,研究還給出了定性對比。傳統方法普遍存在遠處細節模糊的問題,例如樹木和建筑不夠清晰,運動過程中容易出現畫面抖動,拼接區域會出現斷裂,經過超分辨率處理之后還會產生明顯的“涂抹感”。

相比之下,CubeComposer 生成的結果在遠景區域依然保持較高銳度,畫面運動更加連續,沒有明顯的拼接縫,整體觀感也更接近真實的 360° 視頻。這說明這種提升不僅體現在指標上,也能在視覺上直接感受到更強的真實性。


研究團隊還通過消融實驗驗證了核心機制的作用。對于上下文機制,研究人員比較了三種設置,分別是完整方法 Ours、去掉未來信息的 w/o future tokens,以及使用全量上下文的 Full tokens。

結果表明,一旦去掉未來信息,FVD 會從 4.25 上升到 6.03,性能明顯變差;而 Full tokens 的性能雖然與完整方法接近,但計算開銷更高。這說明未來信息對視頻生成非常關鍵,不過并不需要把所有未來信息全部輸入,只需要保留關鍵片段,就可以在性能和效率之間取得更好的平衡。


在連續性設計,也就是防止拼接痕跡的實驗中,研究人員同樣比較了三種版本,分別是去掉位置編碼、去掉 padding 和 blending,以及完整模型。結果顯示,只要去掉其中任意一個組件,FID 就會從 157 上升到 190 以上,同時 LPIPS 也會變差,生成結果顯得更不真實。

從可視化現象來看,最直接的問題就是邊界位置出現明顯裂縫。由此可以看出,連續性設計是 360° 視頻生成中非常關鍵的一部分,對于保證不同區域之間的自然銜接具有決定性作用。


02


一套不止于模型的完整打法

在數據集構建方面,研究團隊首先建立了 4K360Vid 數據集。這一數據集包含 11,832 段視頻,分辨率均達到 4K 及以上,來源是在 Argus 數據集基礎上進一步擴展得到。

為提升數據可用性,研究人員使用 Qwen-VL 自動生成視頻描述,并對低質量視頻進行了過濾,因此這個數據集具有高質量、有語義標注、適合生成模型訓練等特點。除 4K360Vid 之外,研究中還使用了 ODV360 數據集,這是一套標準的 360° 視頻數據集,主要用于訓練和測試。

在訓練設置方面,研究團隊首先從 360° 視頻中構造輸入數據。每個訓練樣本都經歷了幾個步驟:先從原始 360° 視頻中隨機生成相機軌跡,再據此生成普通視角視頻,用來模擬手機或常規相機拍攝的效果,之后再把這種普通視角視頻轉換成帶缺失區域的 360° 視頻。

于是,模型面對的任務就變成了對缺失區域進行補全,同時還要保證時間上的一致性和空間上的一致性。為了更貼近真實拍攝場景,研究中將相機視角范圍設置為 60° 到 120°,軌跡由 3 到 5 個關鍵點構成。


在訓練方法上,研究人員以 Wan 2.2 5B 視頻模型作為基礎模型。在具體訓練過程中,系統會隨機選擇一個時間窗口以及 cubemap 中的某一個面,然后圍繞這一目標構建上下文信息,上下文由歷史信息、當前信息和未來信息共同組成,在這種條件下訓練模型去預測視頻內容。

在推理,也就是生成階段,研究團隊采用分步生成策略。首先把整段視頻劃分成多個時間窗口,然后在每個時間窗口內,按照 F、R、B、L、U、D 六個面的順序逐步生成內容。

每一次生成時,系統都會利用上下文信息,尤其是歷史信息和未來信息,最后再把六個面重新拼接起來,形成完整的 360° 視頻。從本質上看,這個過程就是把整個球形視頻一點一點補全出來。


在對比實驗設計上,研究團隊選擇了 Argus、Imagine360 和 ViewPoint 作為主要比較對象。為了保證對比公平,所有方法都使用相同的輸入視頻,并盡量控制在相同視角范圍,也就是 90°×45° 的設置下進行比較。由于 ViewPoint 只能處理 90°×90° 的輸入,因此研究人員針對這一方法單獨采用了相應設置。

在評測方式上,研究使用了三類指標。第一類是參考指標,包括 LPIPS 和 CLIP;第二類是分布指標,包括圖像層面的 FID 和視頻層面的 FVD;第三類是主觀質量指標,也就是 VBench,其中包括美觀度 A.Q.、清晰度 I.Q. 和一致性 O.C.。研究人員還特別說明,為了避免比較不公平,每個模型都按照自身支持的分辨率進行評測。


03


從少數人能做,到更多人能用

回到實驗意義層面,這項研究并不只是把分辨率從 1K 提高到 4K,更重要的是研究團隊真正突破了 360° 視頻生成長期卡住的技術上限。

過去的擴散模型往往要一次性生成整段 360° 視頻,計算量非常大,顯存和算力壓力也極高,所以結果通常只能停留在較低分辨率,畫面細節不足,離真正可用還有明顯距離。

研究人員把原本整體生成的任務拆開,在空間上分成 6 個面,在時間上分成多個窗口,再按照順序逐步完成生成,這樣一來,原本難以承受的計算壓力就被分散了,高分辨率生成也從理論上的困難問題變成了實際可落地的方案。也就是說,這項研究的價值不只是生成得更清楚,而是證明了高質量 360° 視頻生成這件事終于可以做成。

從研究方法來看,這項工作也提出了一種很有代表性的思路。以往很多生成模型追求一次性把完整內容做出來,而研究團隊轉向了時空自回歸方式,把視頻生成理解為一個逐步推進、不斷補全的過程。

這種變化非常重要,因為它說明復雜的視頻生成任務未必一定要整體完成,也可以像寫文章、拼地圖一樣,一部分一部分地構建起來。這樣的思路對未來的視頻生成、3D 生成,甚至世界模型研究都有啟發意義,因為很多更復雜的生成任務,本質上都可能受益于這種分步驟、分區域、分時段的處理方式。

對于 360° 視頻本身,這項研究還真正碰到了最難的幾個核心問題,并且給出了比較完整的解決路徑。普通視頻只能拍到局部視野,所以生成 360° 內容時最先遇到的問題就是看不見的區域怎么補。

不同方向上的內容又必須彼此連貫,否則用戶一轉頭就會感覺場景是假的。再往下,多個區域拼接在一起時還很容易在邊界位置出現裂縫、錯位和跳變。研究團隊分別用上下文機制、未來信息、生成順序設計和連續性設計去處理這些問題,說明這項工作不是只在單一指標上提升,而是在朝著真正可觀看、可使用、可沉浸的 360° 視頻邁進。

更值得強調的是,這項研究對普通人的影響其實很直接。過去如果想做 360° 視頻,通常需要專門的 360° 相機或者復雜的多機位設備,成本高,操作門檻也高,真正能用的人并不多?,F在按照這項研究展示出來的方向,未來普通人拿著手機、運動相機,或者一臺普通攝像設備拍下來的視角視頻,就有可能被自動擴展成 360° 內容。

這意味著很多原本只有專業團隊才能完成的事情,以后普通用戶也可能做到。比如旅行時拍的一段風景視頻,未來不只是平面的記錄,而可能被做成可以自由轉動視角的沉浸式回憶;家里的日常生活、聚會、演出、婚禮,也有機會被保存成更有現場感的內容;老師、博物館、景區、創作者和小型工作室,也不一定非要購買昂貴設備,照樣有可能制作出更有沉浸感的展示材料。

從應用層面看,這項研究會影響的不只是實驗室里的模型性能,還會影響普通人接觸內容的方式。對于 VR 內容制作來說,它降低了制作門檻,讓更多內容來源不再依賴專業拍攝設備。對于游戲和虛擬場景生成來說,它意味著環境構建可能更快、更便宜。對于數字孿生和虛擬旅游來說,它意味著現實世界中的一個普通視頻片段,未來就有機會被擴展成更完整、更可交互的空間體驗。

換句話說,這項研究推動的不是單純的算法升級,而是讓沉浸式內容從少數專業機構手里,逐漸走向更多普通人可用、可看、可創作的方向。

從更深一層看,研究真正重要的地方在于三個關鍵設計被結合到了一起,也就是時空自回歸、包含未來信息的上下文機制,以及用來降低計算復雜度的稀疏注意力。單獨看其中任何一個設計,都很難徹底解決問題,但三者合在一起,才讓 4K 360° 視頻生成第一次真正具備了現實可行性。

所以,這項研究的意義不僅在于做出了一個效果更好的模型,更在于它給未來高分辨率沉浸式視頻生成提供了一條清晰可行的技術路線。

04


CubeComposer 背后的人

這篇文章的通訊錄作者為薛天帆,目前任職于香港中文大學信息工程系助理教授。他的研究主要集中在計算攝影、計算機視覺、機器學習以及計算機圖形學等方向,長期關注如何讓機器更好地理解和重建視覺世界。

在學術經歷上,薛天帆本科畢業于清華大學,隨后在香港中文大學獲得碩士學位,并在麻省理工學院計算機科學與人工智能實驗室完成博士研究,師從計算機視覺領域知名學者 William T. Freeman。

在進入高校任教之前,他曾在 Google Research 工作多年,從事圖像與視頻處理相關研究,并參與多項實際落地的影像算法開發,例如移動設備夜景成像、圖像增強和編輯系統等,這些技術已經被應用在真實產品中。

在科研成果方面,他在計算機視覺與圖形學頂級會議和期刊上發表了大量論文,研究方向覆蓋視頻生成、3D 重建、圖像增強等多個領域,累計被引用超過一萬次。同時,其團隊近年來在多個國際頂級會議中獲得重要認可,例如 SIGGRAPH、CVPR、NeurIPS 等會議的論文獎項和展示榮譽,體現出持續的研究影響力。


參考鏈接:https://tianfan.info/


未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
A股:周二夜晚突發2大消息!A股明天要迎更大暴風雨行情嗎?

A股:周二夜晚突發2大消息!A股明天要迎更大暴風雨行情嗎?

風風順
2026-04-08 03:00:03
立即停用這3種“廚房神器”,中毒又致癌,很多家庭還在用!

立即停用這3種“廚房神器”,中毒又致癌,很多家庭還在用!

39健康網
2026-04-07 20:02:51
小米股價距高位腰斬,市值蒸發超7000億港元

小米股價距高位腰斬,市值蒸發超7000億港元

21世紀經濟報道
2026-04-07 18:54:09
金價要重現歷史了!做好心理準備,下月金價或將重現2015年歷史!

金價要重現歷史了!做好心理準備,下月金價或將重現2015年歷史!

時尚的弄潮
2026-04-07 03:51:12
年報揭秘!外資扎堆10只低價小盤股,低至2元市值不到20億

年報揭秘!外資扎堆10只低價小盤股,低至2元市值不到20億

慧眼看世界哈哈
2026-04-07 14:00:33
心臟支架手術后能活幾年?醫生說出實話……

心臟支架手術后能活幾年?醫生說出實話……

白話電影院
2026-04-07 14:31:15
歷史上三個假太監:一個睡了皇后,一個讓太后生子,一個殺了皇帝

歷史上三個假太監:一個睡了皇后,一個讓太后生子,一個殺了皇帝

文史達觀
2026-04-06 16:03:34
我年薪800萬,妻子卻總說我掙3000,小舅子婚禮那天才懂她的苦心

我年薪800萬,妻子卻總說我掙3000,小舅子婚禮那天才懂她的苦心

曉艾故事匯
2025-11-28 17:53:38
四連??!CBA豪門徹底無緣季后賽,重金引進的球員個個受傷

四連??!CBA豪門徹底無緣季后賽,重金引進的球員個個受傷

籃球大陸
2026-04-07 14:10:48
一碗泡面引爆全網,泰國人開始“抗日”了!

一碗泡面引爆全網,泰國人開始“抗日”了!

大道微言
2026-04-06 12:38:56
打虎!王文靈被查

打虎!王文靈被查

新京報政事兒
2026-04-07 17:49:08
抵達南京!鄭麗文這套服裝的3層深意,90%的人都沒看懂

抵達南京!鄭麗文這套服裝的3層深意,90%的人都沒看懂

靚仔情感
2026-04-07 20:34:48
發達了!廣西一男子全包家族清明拜祖費用,網友:這就是光宗耀祖

發達了!廣西一男子全包家族清明拜祖費用,網友:這就是光宗耀祖

火山詩話
2026-04-07 18:41:53
空籃都上不進!“遼籃櫻木”11分鐘0分1板,球迷:白瞎這么大個子

空籃都上不進!“遼籃櫻木”11分鐘0分1板,球迷:白瞎這么大個子

弄月公子
2026-04-07 22:42:02
涼透了的專業,頂級碩士也在網絡哭訴:月薪4500!

涼透了的專業,頂級碩士也在網絡哭訴:月薪4500!

黯泉
2026-04-07 22:03:00
知道去不成中國了?魯比奧發表涉華聲明,一句話給巴拿馬干沉默了

知道去不成中國了?魯比奧發表涉華聲明,一句話給巴拿馬干沉默了

命運自認幽默
2026-04-08 04:15:08
原來陳麗華長子是他,北大畢業,31歲接手家業,他才是富華掌舵人

原來陳麗華長子是他,北大畢業,31歲接手家業,他才是富華掌舵人

冷紫葉
2026-04-07 15:26:07
男孩偷自行車后續:被通報全校社死,寶媽拒不道歉,婆婆主動賠罪

男孩偷自行車后續:被通報全校社死,寶媽拒不道歉,婆婆主動賠罪

潮鹿逐夢
2026-04-07 11:42:53
局勢惡化,中方接到高市消息,日本專機將飛越南,對華包圍圈成型

局勢惡化,中方接到高市消息,日本專機將飛越南,對華包圍圈成型

牛鍋巴小釩
2026-04-07 17:43:10
一包中國方便面,在朝鮮為何成了普通人高攀不起的“奢侈品”?

一包中國方便面,在朝鮮為何成了普通人高攀不起的“奢侈品”?

復轉這些年
2026-04-07 12:22:45
2026-04-08 04:55:00
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7175文章數 20743關注度
往期回顧 全部

藝術要聞

深圳最慘地王復活?70億起拍,曾規劃中國第一高樓!

頭條要聞

特朗普:伊朗人愿為自由承受轟炸

頭條要聞

特朗普:伊朗人愿為自由承受轟炸

體育要聞

裁判機構:VAR錯誤推翻巴薩紅牌

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產

財經要聞

10萬億財政轉移支付,被誰拿走了?

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

汽車要聞

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

房產
時尚
數碼
親子
游戲

房產要聞

重磅!三亞擬出安居房新政!

120元和120分鐘,哪個更奢侈?

數碼要聞

MacBook Neo爆火背后,蘋果芯片庫存要見底了?

親子要聞

春天娃長個黃金期,喝對黑豆水,個子悄悄往上竄

PlayStation全新炸裂計劃公開!利好所有玩家

無障礙瀏覽 進入關懷版