![]()
長期以來,3D世界建模領(lǐng)域存在兩大技術(shù)“孤島”:生成式模型擅長從文本、單圖創(chuàng)作天馬行空的3D場景,但幾何精度不足、視角一致性差;重建式模型能從多圖、視頻中還原真實(shí)3D結(jié)構(gòu),卻缺乏生成想象力,難以處理稀疏輸入。騰訊此次HY-World 2.0的發(fā)布,首次將這兩大能力融合,構(gòu)建了從“稀疏輸入”到“可交互3D世界”的完整技術(shù)閉環(huán)。
據(jù)騰訊官方文檔,作為3D世界的“第一塊拼圖”,HY-Pano 2.0解決了傳統(tǒng)全景生成依賴相機(jī)參數(shù)、場景結(jié)構(gòu)破碎的行業(yè)痛點(diǎn)。通過Multi-Modal Diffusion Transformer(MMDiT)實(shí)現(xiàn)視角到全景的隱式轉(zhuǎn)換,無需任何相機(jī)元數(shù)據(jù),就能從單張圖片或一段文本中生成結(jié)構(gòu)連貫、細(xì)節(jié)豐富的360°全景場景。
(技術(shù)報(bào)告地址:https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf)
![]()
在文本到全景(T2P)任務(wù)中,CLIP-T指標(biāo)達(dá)行業(yè)最高的0.258,Q-Align美學(xué)評分較競品提升12%;在圖像到全景(I2P)任務(wù)中,全指標(biāo)排名第一,幾何一致性遠(yuǎn)超CubeDiff、GenEx等模型。
![]()
有了高質(zhì)量的全景基礎(chǔ),如何高效探索3D世界成為新的挑戰(zhàn)。HY-World 2.0設(shè)計(jì)了語義感知軌跡規(guī)劃模塊,通過全景點(diǎn)云、語義掩碼與導(dǎo)航網(wǎng)格的融合分析,自動生成多樣化軌跡模式,實(shí)現(xiàn)無碰撞、全覆蓋的相機(jī)路徑規(guī)劃。這一技術(shù)不僅確保了后續(xù)3D重建時無視角盲區(qū),更讓AI能夠像人類一樣“聰明地”探索復(fù)雜場景——比如自動環(huán)繞建筑物拍攝細(xì)節(jié),或沿著走廊漫游捕捉完整結(jié)構(gòu)。
![]()
在3D世界擴(kuò)展階段,最大的技術(shù)瓶頸是“多視角一致性”——不同軌跡生成的視頻常常出現(xiàn)物體錯位、光影矛盾等問題。HY-World 2.0通過全局幾何記憶與空間立體記憶雙記憶機(jī)制,讓AI能夠“記住”整個3D場景的幾何結(jié)構(gòu),從而生成視角連貫、細(xì)節(jié)一致的擴(kuò)展場景。結(jié)合Distribution Matching Distillation蒸餾技術(shù),生成速度提升4倍,在Tanks-and-Temples數(shù)據(jù)集上,點(diǎn)云F1-score達(dá)43.16,超越SEVA、Gen3C等模型30%以上。
![]()
作為全鏈路的核心,HY-World 2.0的通用3D重建模塊支持從多圖、視頻中恢復(fù)點(diǎn)云、深度圖、法向量等幾何信息。該模塊通過歸一化位置編碼解決了長期困擾行業(yè)的“分辨率泛化”問題,高分辨率下相機(jī)姿態(tài)AUC@30仍達(dá)86.89,較前代產(chǎn)品提升31%;通過深度-法線耦合監(jiān)督,深度估計(jì)AbsRel誤差降至0.162。在效率方面,支持序列并行、混合精度與全分片數(shù)據(jù)并行,單GPU可處理256視圖,4GPU下128視圖推理時間僅5.6秒,為大規(guī)模3D重建提供了可能。
性能逼近閉源商業(yè)產(chǎn)品
技術(shù)創(chuàng)新最終要靠數(shù)據(jù)說話,HY-World 2.0在多項(xiàng)核心指標(biāo)上實(shí)現(xiàn)了對開源模型的全面超越,更在部分場景逼近閉源商業(yè)模型Marble。在相同全景輸入下,HY-World 2.0生成的3D場景與輸入一致性達(dá)94%,而Marble僅為88%,幾何誤差降低25%;在復(fù)雜場景如城市建筑、自然景觀中,HY-World 2.0的紋理、光影還原度更接近真實(shí)世界,細(xì)節(jié)表現(xiàn)力遠(yuǎn)超競品。
端到端生成速度方面,HY-World 2.0僅需約12分鐘/場景(712秒),遠(yuǎn)快于Marble的15分鐘/場景和開源競品平均30分鐘/場景的速度,效率提升50%以上。更值得關(guān)注的是,HY-World 2.0是全球首個開源的多模態(tài)3D世界模型,全部模型權(quán)重、代碼與技術(shù)細(xì)節(jié)已對外開放,這意味著開發(fā)者無需依賴昂貴的商業(yè)模型,就能快速構(gòu)建3D生成應(yīng)用,極大降低了AGI空間智能的開發(fā)門檻。
![]()
開源開放的模式也讓HY-World 2.0具備了更強(qiáng)的生態(tài)活力,開發(fā)者可以基于該模型進(jìn)行二次開發(fā),推動3D生成技術(shù)在更多場景的應(yīng)用。目前,已有多家游戲、機(jī)器人、數(shù)字孿生領(lǐng)域的企業(yè)與騰訊混元團(tuán)隊(duì)展開合作,探索HY-World 2.0的商業(yè)化落地。
技術(shù)的價(jià)值最終要體現(xiàn)在應(yīng)用場景中,HY-World 2.0還配套了WorldLens高性能3DGS渲染平臺,支持實(shí)時物理反饋和空間交互,為下游應(yīng)用提供高效的渲染支持。
在游戲開發(fā)領(lǐng)域,HY-World 2.0支持實(shí)時可交互3D場景生成,內(nèi)置物理碰撞檢測與角色控制,可直接導(dǎo)入U(xiǎn)nity/Unreal引擎,顯著縮短開發(fā)周期。一款開放世界游戲的場景建模,傳統(tǒng)方法需要數(shù)月時間,而使用HY-World 2.0,開發(fā)者只需輸入一段文本描述,就能在約12分鐘內(nèi)生成可交互的3D場景。
在機(jī)器人領(lǐng)域,HY-World 2.0通過重建真實(shí)環(huán)境生成高精度仿真場景,支持機(jī)器人路徑規(guī)劃與視覺導(dǎo)航訓(xùn)練,提升機(jī)器人研發(fā)效率與仿真精度。目前,已有多家機(jī)器人企業(yè)基于HY-World 2.0構(gòu)建了仿真訓(xùn)練平臺,優(yōu)化機(jī)器人導(dǎo)航算法開發(fā)流程。
在數(shù)字孿生領(lǐng)域,HY-World 2.0可快速生成工廠、園區(qū)、城市等場景的3D數(shù)字孿生模型,支持多視角漫游與設(shè)備狀態(tài)可視化,優(yōu)化運(yùn)維流程。一個大型工廠的數(shù)字孿生建模,傳統(tǒng)方法需要投入大量人力物力,而使用HY-World 2.0,只需導(dǎo)入工廠的航拍視頻,就能在數(shù)小時內(nèi)生成高精度的3D數(shù)字孿生模型。(本文首發(fā)鈦媒體APP,作者 | 硅谷Tech_news,編輯 | 秦聰慧)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.