挑戰(zhàn)閉源格局！騰訊混元3D 2.0開源發(fā)布，性能對標(biāo)商業(yè)級模型

2026-04-16 16:59:20　來源: 鈦媒體APP

北京舉報(bào)

分享至

長期以來，3D世界建模領(lǐng)域存在兩大技術(shù)“孤島”：生成式模型擅長從文本、單圖創(chuàng)作天馬行空的3D場景，但幾何精度不足、視角一致性差；重建式模型能從多圖、視頻中還原真實(shí)3D結(jié)構(gòu)，卻缺乏生成想象力，難以處理稀疏輸入。騰訊此次HY-World 2.0的發(fā)布，首次將這兩大能力融合，構(gòu)建了從“稀疏輸入”到“可交互3D世界”的完整技術(shù)閉環(huán)。

據(jù)騰訊官方文檔，作為3D世界的“第一塊拼圖”，HY-Pano 2.0解決了傳統(tǒng)全景生成依賴相機(jī)參數(shù)、場景結(jié)構(gòu)破碎的行業(yè)痛點(diǎn)。通過Multi-Modal Diffusion Transformer（MMDiT）實(shí)現(xiàn)視角到全景的隱式轉(zhuǎn)換，無需任何相機(jī)元數(shù)據(jù)，就能從單張圖片或一段文本中生成結(jié)構(gòu)連貫、細(xì)節(jié)豐富的360°全景場景。

（技術(shù)報(bào)告地址：https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf）

在文本到全景（T2P）任務(wù)中，CLIP-T指標(biāo)達(dá)行業(yè)最高的0.258，Q-Align美學(xué)評分較競品提升12%；在圖像到全景（I2P）任務(wù)中，全指標(biāo)排名第一，幾何一致性遠(yuǎn)超CubeDiff、GenEx等模型。

有了高質(zhì)量的全景基礎(chǔ)，如何高效探索3D世界成為新的挑戰(zhàn)。HY-World 2.0設(shè)計(jì)了語義感知軌跡規(guī)劃模塊，通過全景點(diǎn)云、語義掩碼與導(dǎo)航網(wǎng)格的融合分析，自動生成多樣化軌跡模式，實(shí)現(xiàn)無碰撞、全覆蓋的相機(jī)路徑規(guī)劃。這一技術(shù)不僅確保了后續(xù)3D重建時無視角盲區(qū)，更讓AI能夠像人類一樣“聰明地”探索復(fù)雜場景——比如自動環(huán)繞建筑物拍攝細(xì)節(jié)，或沿著走廊漫游捕捉完整結(jié)構(gòu)。

在3D世界擴(kuò)展階段，最大的技術(shù)瓶頸是“多視角一致性”——不同軌跡生成的視頻常常出現(xiàn)物體錯位、光影矛盾等問題。HY-World 2.0通過全局幾何記憶與空間立體記憶雙記憶機(jī)制，讓AI能夠“記住”整個3D場景的幾何結(jié)構(gòu)，從而生成視角連貫、細(xì)節(jié)一致的擴(kuò)展場景。結(jié)合Distribution Matching Distillation蒸餾技術(shù)，生成速度提升4倍，在Tanks-and-Temples數(shù)據(jù)集上，點(diǎn)云F1-score達(dá)43.16，超越SEVA、Gen3C等模型30%以上。

作為全鏈路的核心，HY-World 2.0的通用3D重建模塊支持從多圖、視頻中恢復(fù)點(diǎn)云、深度圖、法向量等幾何信息。該模塊通過歸一化位置編碼解決了長期困擾行業(yè)的“分辨率泛化”問題，高分辨率下相機(jī)姿態(tài)AUC@30仍達(dá)86.89，較前代產(chǎn)品提升31%；通過深度-法線耦合監(jiān)督，深度估計(jì)AbsRel誤差降至0.162。在效率方面，支持序列并行、混合精度與全分片數(shù)據(jù)并行，單GPU可處理256視圖，4GPU下128視圖推理時間僅5.6秒，為大規(guī)模3D重建提供了可能。

性能逼近閉源商業(yè)產(chǎn)品

技術(shù)創(chuàng)新最終要靠數(shù)據(jù)說話，HY-World 2.0在多項(xiàng)核心指標(biāo)上實(shí)現(xiàn)了對開源模型的全面超越，更在部分場景逼近閉源商業(yè)模型Marble。在相同全景輸入下，HY-World 2.0生成的3D場景與輸入一致性達(dá)94%，而Marble僅為88%，幾何誤差降低25%；在復(fù)雜場景如城市建筑、自然景觀中，HY-World 2.0的紋理、光影還原度更接近真實(shí)世界，細(xì)節(jié)表現(xiàn)力遠(yuǎn)超競品。

端到端生成速度方面，HY-World 2.0僅需約12分鐘/場景（712秒），遠(yuǎn)快于Marble的15分鐘/場景和開源競品平均30分鐘/場景的速度，效率提升50%以上。更值得關(guān)注的是，HY-World 2.0是全球首個開源的多模態(tài)3D世界模型，全部模型權(quán)重、代碼與技術(shù)細(xì)節(jié)已對外開放，這意味著開發(fā)者無需依賴昂貴的商業(yè)模型，就能快速構(gòu)建3D生成應(yīng)用，極大降低了AGI空間智能的開發(fā)門檻。

開源開放的模式也讓HY-World 2.0具備了更強(qiáng)的生態(tài)活力，開發(fā)者可以基于該模型進(jìn)行二次開發(fā)，推動3D生成技術(shù)在更多場景的應(yīng)用。目前，已有多家游戲、機(jī)器人、數(shù)字孿生領(lǐng)域的企業(yè)與騰訊混元團(tuán)隊(duì)展開合作，探索HY-World 2.0的商業(yè)化落地。

技術(shù)的價(jià)值最終要體現(xiàn)在應(yīng)用場景中，HY-World 2.0還配套了WorldLens高性能3DGS渲染平臺，支持實(shí)時物理反饋和空間交互，為下游應(yīng)用提供高效的渲染支持。

在游戲開發(fā)領(lǐng)域，HY-World 2.0支持實(shí)時可交互3D場景生成，內(nèi)置物理碰撞檢測與角色控制，可直接導(dǎo)入U(xiǎn)nity/Unreal引擎，顯著縮短開發(fā)周期。一款開放世界游戲的場景建模，傳統(tǒng)方法需要數(shù)月時間，而使用HY-World 2.0，開發(fā)者只需輸入一段文本描述，就能在約12分鐘內(nèi)生成可交互的3D場景。

在機(jī)器人領(lǐng)域，HY-World 2.0通過重建真實(shí)環(huán)境生成高精度仿真場景，支持機(jī)器人路徑規(guī)劃與視覺導(dǎo)航訓(xùn)練，提升機(jī)器人研發(fā)效率與仿真精度。目前，已有多家機(jī)器人企業(yè)基于HY-World 2.0構(gòu)建了仿真訓(xùn)練平臺，優(yōu)化機(jī)器人導(dǎo)航算法開發(fā)流程。

在數(shù)字孿生領(lǐng)域，HY-World 2.0可快速生成工廠、園區(qū)、城市等場景的3D數(shù)字孿生模型，支持多視角漫游與設(shè)備狀態(tài)可視化，優(yōu)化運(yùn)維流程。一個大型工廠的數(shù)字孿生建模，傳統(tǒng)方法需要投入大量人力物力，而使用HY-World 2.0，只需導(dǎo)入工廠的航拍視頻，就能在數(shù)小時內(nèi)生成高精度的3D數(shù)字孿生模型。（本文首發(fā)鈦媒體APP，作者 | 硅谷Tech_news，編輯 | 秦聰慧）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.