![]()
在數(shù)字世界中,讓虛擬物體在屏幕上準(zhǔn)確跟隨真實(shí)物體移動(dòng),就像給一個(gè)調(diào)皮的小貓拴上隱形的繩子——看似簡單,實(shí)則困難重重。這項(xiàng)由以色列理工學(xué)院(Technion)和英偉達(dá)聯(lián)合開展的研究,發(fā)表于2026年的計(jì)算機(jī)視覺領(lǐng)域頂級(jí)會(huì)議,論文編號(hào)為arXiv:2603.24036v1,為這個(gè)長期困擾科技界的難題提供了革命性的解決方案。
傳統(tǒng)的三維物體跟蹤技術(shù)就像是在玩一個(gè)極其困難的拼圖游戲。當(dāng)虛擬物體的初始位置與目標(biāo)位置相差太遠(yuǎn)時(shí),系統(tǒng)就會(huì)完全失去方向感,就好比你閉著眼睛在一個(gè)巨大的停車場里尋找自己的汽車——沒有任何線索指向正確的方向。研究團(tuán)隊(duì)將這種現(xiàn)象稱為"消失的梯度問題",這個(gè)問題一直是三維高斯分布(3D Gaussian Splatting,簡稱3DGS)技術(shù)應(yīng)用中的致命弱點(diǎn)。
想象一下這樣的場景:你正在使用一款增強(qiáng)現(xiàn)實(shí)應(yīng)用,想要在真實(shí)的桌子上放置一個(gè)虛擬的花瓶。但是由于初始定位不準(zhǔn)確,虛擬花瓶出現(xiàn)在了完全錯(cuò)誤的位置——比如在天花板上。傳統(tǒng)技術(shù)就像是一個(gè)近視眼的搬家工人,只能看到眼前的一小塊區(qū)域。如果花瓶不在這個(gè)視野范圍內(nèi),工人就完全不知道該往哪個(gè)方向移動(dòng)。這就是為什么許多三維跟蹤應(yīng)用需要用戶手動(dòng)調(diào)整初始位置,或者在理想的環(huán)境條件下才能正常工作。
研究團(tuán)隊(duì)的創(chuàng)新之處在于他們完全改變了"尋找"的方式。他們不再依賴局部的像素比較,而是采用了一種全新的"頻譜矩督導(dǎo)"方法。這就像是給那個(gè)尋找汽車的人配備了一個(gè)能夠感知整個(gè)停車場電磁信號(hào)的探測器。無論汽車在停車場的哪個(gè)角落,探測器都能指出大致的方向,并且隨著距離的縮短,定位會(huì)變得越來越精確。
具體來說,研究團(tuán)隊(duì)將圖像從空間域轉(zhuǎn)換到了頻率域,這個(gè)過程就像是將一首復(fù)雜的交響樂分解成不同的音符頻率。在頻率域中,物體的位移會(huì)表現(xiàn)為相位的變化,而這種變化在整個(gè)圖像范圍內(nèi)都是可以感知到的。即使虛擬物體和目標(biāo)物體在空間上完全沒有重疊,系統(tǒng)仍然能夠感知到它們之間的關(guān)系,就像即使你聽不清遠(yuǎn)處朋友說話的具體內(nèi)容,也能通過聲音的方向判斷他們的大致位置。
為了避免高頻信息帶來的混亂,研究團(tuán)隊(duì)設(shè)計(jì)了一套"頻率退火"策略。這個(gè)過程就像是調(diào)收音機(jī)一樣:最初只接收最清晰、最穩(wěn)定的低頻信號(hào)來確定大致方向,然后逐漸增加更高頻率的信號(hào)來獲得更精確的定位。通過這種從粗到細(xì)的調(diào)整過程,系統(tǒng)能夠避免被高頻噪聲誤導(dǎo),同時(shí)最終達(dá)到像素級(jí)的精確對(duì)齊。
研究團(tuán)隊(duì)在多個(gè)實(shí)驗(yàn)中驗(yàn)證了這種方法的有效性。他們使用了由SC4D生成的合成數(shù)據(jù)和真實(shí)世界的GART狗類數(shù)據(jù)集進(jìn)行測試。在合成數(shù)據(jù)實(shí)驗(yàn)中,即使將虛擬物體的初始位置設(shè)置得與目標(biāo)位置相差很遠(yuǎn),新方法仍然能夠穩(wěn)定地找到正確位置。而傳統(tǒng)方法在這種情況下幾乎總是失敗,要么完全找不到目標(biāo),要么被錯(cuò)誤的特征所誤導(dǎo)。
在真實(shí)世界的測試中,研究團(tuán)隊(duì)使用了來自2022年全美犬類表演賽和Adobe Stock的單目視頻。這些視頻包含了各種不同姿態(tài)的狗,從阿拉斯加雪橇犬到柯基犬,每一種都有著不同的外形和運(yùn)動(dòng)模式。結(jié)果顯示,無論初始對(duì)齊如何不準(zhǔn)確,新方法都能夠可靠地跟蹤到目標(biāo),而傳統(tǒng)方法往往在物體稍有偏移時(shí)就會(huì)出現(xiàn)明顯的追蹤錯(cuò)誤或完全失效。
這項(xiàng)技術(shù)的革命性在于它的通用性。無論是使用神經(jīng)網(wǎng)絡(luò)控制的連續(xù)變形,還是直接優(yōu)化控制點(diǎn)位置,SpectralSplats都能夠無縫集成。這就像是開發(fā)了一種萬能的導(dǎo)航系統(tǒng),不管你是開汽車、騎自行車還是步行,都能為你提供可靠的方向指引。
從技術(shù)實(shí)現(xiàn)的角度來看,研究團(tuán)隊(duì)巧妙地解決了計(jì)算效率問題。雖然頻譜分析聽起來很復(fù)雜,但通過使用快速傅里葉變換(FFT),整個(gè)過程實(shí)際上非常高效。而且一旦系統(tǒng)通過頻譜方法建立了粗略的對(duì)齊,就會(huì)自動(dòng)切換回傳統(tǒng)的空間域優(yōu)化方法進(jìn)行精細(xì)調(diào)整,確保最終結(jié)果的質(zhì)量。
這種兩階段的策略特別聰明:頻譜階段負(fù)責(zé)"大海撈針"式的全局搜索,而空間階段則負(fù)責(zé)"精雕細(xì)琢"式的局部優(yōu)化。兩者結(jié)合,既保證了魯棒性,又確保了最終的精度。研究顯示,這種方法在PSNR(峰值信噪比)、SSIM(結(jié)構(gòu)相似性指數(shù))和LPIPS(學(xué)習(xí)感知圖像塊相似度)等多個(gè)評(píng)估指標(biāo)上都顯著優(yōu)于傳統(tǒng)方法。
實(shí)驗(yàn)結(jié)果令人印象深刻。在空間偏移半徑為0.5的測試中,傳統(tǒng)像素級(jí)監(jiān)督方法的PSNR值從27.34下降到17.67,表明圖像質(zhì)量嚴(yán)重退化。而新方法的PSNR值卻能保持在26.70以上,幾乎沒有性能損失。這種差異在視覺上的表現(xiàn)就是:傳統(tǒng)方法產(chǎn)生的圖像模糊不清,物體輪廓扭曲,而新方法生成的圖像依然清晰銳利,結(jié)構(gòu)完整。
更重要的是,這種改進(jìn)不僅僅體現(xiàn)在訓(xùn)練視角上,在全新的觀察角度(novel view)下也表現(xiàn)出色。這意味著系統(tǒng)不只是"死記硬背"了訓(xùn)練數(shù)據(jù),而是真正學(xué)會(huì)了物體的三維結(jié)構(gòu)和運(yùn)動(dòng)規(guī)律。在多視角監(jiān)督的進(jìn)一步測試中,即使增加了更多的觀察角度,傳統(tǒng)方法仍然在初始對(duì)齊不準(zhǔn)確時(shí)表現(xiàn)糟糕,而新方法始終保持穩(wěn)定的性能。
研究團(tuán)隊(duì)還深入分析了方法失效的邊界條件。他們發(fā)現(xiàn),當(dāng)空間偏移超過一定閾值時(shí),即使是新方法也會(huì)遇到挑戰(zhàn)。但這個(gè)閾值比傳統(tǒng)方法高出許多,而且失效的模式更加可預(yù)測和可控制。通過適當(dāng)調(diào)整頻率退火的參數(shù),可以進(jìn)一步擴(kuò)展方法的適用范圍。
在計(jì)算開銷方面,新方法展現(xiàn)出了實(shí)用性。每個(gè)訓(xùn)練序列的處理時(shí)間約為8到15分鐘,在單個(gè)NVIDIA L40 GPU上即可完成。這種效率使得該技術(shù)有望在實(shí)際應(yīng)用中得到廣泛采用,而不僅僅停留在實(shí)驗(yàn)室階段。
從更廣泛的應(yīng)用前景來看,這項(xiàng)技術(shù)的突破意義重大。在增強(qiáng)現(xiàn)實(shí)領(lǐng)域,它能夠讓虛擬物體更穩(wěn)定地"粘附"在真實(shí)世界的表面上,不會(huì)因?yàn)檩p微的攝像頭抖動(dòng)或光照變化而突然"飛走"。在電影特效制作中,它可以大大簡化動(dòng)態(tài)場景中虛擬元素的集成過程,減少手工調(diào)整的需要。在自動(dòng)駕駛和機(jī)器人視覺系統(tǒng)中,它能提供更可靠的物體追蹤能力,即使在復(fù)雜的動(dòng)態(tài)環(huán)境中也能保持穩(wěn)定的性能。
研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前方法的局限性。SpectralSplats目前主要適用于已有預(yù)初始化模型的場景,在完全從零開始的動(dòng)態(tài)場景重建中還有待進(jìn)一步發(fā)展。不過,研究團(tuán)隊(duì)表示,將這種頻率引導(dǎo)的優(yōu)化方法擴(kuò)展到聯(lián)合幾何和運(yùn)動(dòng)優(yōu)化的全動(dòng)態(tài)重建是一個(gè)令人興奮的未來研究方向。
值得注意的是,這項(xiàng)研究的理論貢獻(xiàn)不僅僅在于解決了一個(gè)具體的技術(shù)問題,更在于它提供了一種全新的思考方式。通過將優(yōu)化目標(biāo)從空間域轉(zhuǎn)移到頻率域,研究團(tuán)隊(duì)展示了如何利用信號(hào)處理的經(jīng)典理論來解決現(xiàn)代計(jì)算機(jī)視覺中的挑戰(zhàn)。這種跨學(xué)科的融合為其他相關(guān)問題的解決提供了新的啟發(fā)。
研究還詳細(xì)探討了頻率退火策略的理論基礎(chǔ)。通過嚴(yán)格的數(shù)學(xué)推導(dǎo),團(tuán)隊(duì)證明了為什么線性的頻率擴(kuò)展策略是最優(yōu)的,以及如何根據(jù)空間誤差的衰減速度來確定頻率增長的速率。這種理論指導(dǎo)使得方法的參數(shù)調(diào)整變得更加科學(xué)和可預(yù)測。
在實(shí)際部署時(shí),研究團(tuán)隊(duì)提供了詳盡的實(shí)現(xiàn)指南。他們不僅公開了完整的算法實(shí)現(xiàn),還提供了一系列可視化演示程序,幫助其他研究者理解和應(yīng)用這項(xiàng)技術(shù)。這種開放的態(tài)度極大地促進(jìn)了技術(shù)的傳播和改進(jìn)。
從工業(yè)應(yīng)用的角度來看,這項(xiàng)技術(shù)已經(jīng)開始吸引商業(yè)界的關(guān)注。多家從事增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)的公司表示了合作興趣,希望將SpectralSplats集成到他們的產(chǎn)品中。這種學(xué)術(shù)研究向?qū)嶋H應(yīng)用的快速轉(zhuǎn)化,正是計(jì)算機(jī)視覺領(lǐng)域充滿活力的體現(xiàn)。
說到底,這項(xiàng)研究解決的是一個(gè)看似技術(shù)性很強(qiáng),但實(shí)際上與我們?nèi)粘I钕⑾⑾嚓P(guān)的問題。無論是手機(jī)上的AR濾鏡、游戲中的虛擬物體,還是未來的混合現(xiàn)實(shí)眼鏡,都需要可靠的三維跟蹤技術(shù)作為基礎(chǔ)。SpectralSplats的突破為這些應(yīng)用提供了更加穩(wěn)定和可靠的技術(shù)支撐,讓虛擬世界與現(xiàn)實(shí)世界的融合變得更加自然和流暢。
這項(xiàng)研究的影響可能會(huì)延續(xù)很多年。它不僅為當(dāng)前的技術(shù)難題提供了解決方案,更為未來的研究指明了新的方向。通過證明頻率域方法在三維跟蹤中的有效性,研究團(tuán)隊(duì)為其他類似問題的解決開啟了新的思路。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過arXiv:2603.24036v1查詢完整論文。
Q&A
Q1:SpectralSplats技術(shù)是什么?
A:SpectralSplats是由以色列理工學(xué)院和英偉達(dá)聯(lián)合開發(fā)的一種新型三維物體跟蹤技術(shù)。它通過將圖像處理從空間域轉(zhuǎn)換到頻率域,解決了傳統(tǒng)方法在初始位置不準(zhǔn)確時(shí)容易失效的問題,讓虛擬物體能夠更可靠地跟蹤真實(shí)目標(biāo)。
Q2:這項(xiàng)技術(shù)為什么比傳統(tǒng)方法更穩(wěn)定?
A:傳統(tǒng)方法只能在虛擬物體和目標(biāo)物體有空間重疊時(shí)才能工作,就像近視眼只能看到眼前一小塊區(qū)域。而SpectralSplats使用頻譜分析,能夠在整個(gè)圖像范圍內(nèi)感知物體關(guān)系,即使兩者完全沒有重疊也能找到正確方向。
Q3:SpectralSplats技術(shù)有哪些實(shí)際應(yīng)用?
A:這項(xiàng)技術(shù)可以廣泛應(yīng)用于增強(qiáng)現(xiàn)實(shí)應(yīng)用、電影特效制作、游戲開發(fā)、自動(dòng)駕駛和機(jī)器人視覺系統(tǒng)等領(lǐng)域。它能讓虛擬物體更穩(wěn)定地融入真實(shí)環(huán)境,不會(huì)因?yàn)檩p微的攝像頭移動(dòng)或環(huán)境變化而突然消失或位置錯(cuò)亂。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.