![]()
如果把今天最熱門的幾個(gè)方向擺在一起看,你會(huì)發(fā)現(xiàn)它們其實(shí)在卡同一道坎。
做 AIGC 的人會(huì)覺得,現(xiàn)在的 3D 生成已經(jīng)能 “做出東西”,但還很難真正進(jìn)入創(chuàng)作流程;做 圖形學(xué)和 動(dòng)畫的人會(huì)發(fā)現(xiàn),很多自動(dòng)生成結(jié)果只能看,不能動(dòng);做游戲和 VR 的人會(huì)關(guān)心,這些資產(chǎn)能不能直接進(jìn)入交互;做仿真和具身智能的人則更在意,生成出來的對(duì)象有沒有結(jié)構(gòu)、能不能被控制、能不能放進(jìn)一個(gè)可操作的三維世界。
這些問題背后,其實(shí)都指向同一個(gè)核心門檻:
今天很多 3D AIGC 結(jié)果,仍然只是 “靜態(tài)的 3D 外殼”,而不是 “能動(dòng)、能控、能進(jìn)入工作流的數(shù)字資產(chǎn)”。
SIGGRAPH 2026 論文 AniGen: Unified S^3 Fields for Animatable 3D Asset Generation 正是在試圖跨過這道門檻。它做的不是單純把一張圖變成一個(gè) 3D 模型,而是從單張圖片直接生成帶骨架與蒙皮權(quán)重的可動(dòng)畫 3D 資產(chǎn)。
這意味著,對(duì)動(dòng)畫制作來說,它生成的不是擺件,而是更接近可直接驅(qū)動(dòng)的角色或道具;對(duì)游戲開發(fā)來說,它離 “可進(jìn)入引擎” 的資產(chǎn)更近;對(duì)動(dòng)態(tài)創(chuàng)作和視頻生成來說,它提供的是可以被重新擺姿態(tài)和編排動(dòng)作的 3D 元素;對(duì)仿真和具身智能來說,它生成的也不只是外觀,而是帶有結(jié)構(gòu)先驗(yàn)、可被進(jìn)一步控制的對(duì)象。
論文來自 VAST 和香港大學(xué),核心目標(biāo)非常直接:給定單張圖片,直接生成帶骨架與蒙皮權(quán)重的 3D 資產(chǎn),而不是先生成一個(gè)靜態(tài)模型,再補(bǔ)一套脆弱的自動(dòng)綁骨流程。
本文作者是來自香港大學(xué)博士生黃熠華,通訊作者是VAST公司首席科學(xué)家曹炎培博士和香港大學(xué)齊曉娟教授。
![]()
- 論文:AniGen: Unified S^3 Fields for Animatable 3D Asset Generation
- 會(huì)議:SIGGRAPH 2026 (TOG)
- 項(xiàng)目主頁:https://yihua7.github.io/AniGen-web/
- 代碼:https://github.com/VAST-AI-Research/AniGen
- Demo:https://huggingface.co/spaces/VAST-AI/AniGen
![]()
AniGen 海報(bào)
過去兩年,AIGC 把 3D 內(nèi)容生成推到了一個(gè)很熱的階段。無論是文生 3D 還是圖生 3D,模型已經(jīng)能生成越來越像樣的幾何和外觀。但在真正的動(dòng)畫、游戲、VR、數(shù)字人和具身智能流程里,只有 “像一個(gè) 3D 模型” 還遠(yuǎn)遠(yuǎn)不夠。
真正能進(jìn)入生產(chǎn)流程的,是可動(dòng)畫 3D 資產(chǎn)。
這類資產(chǎn)除了幾何形狀本身,還需要完整的骨架結(jié)構(gòu),以及控制模型如何隨骨架運(yùn)動(dòng)而變形的蒙皮權(quán)重。沒有這兩樣,生成結(jié)果再精致,也更像一個(gè)靜態(tài)擺件,而不是可以被驅(qū)動(dòng)、編輯和復(fù)用的數(shù)字角色或道具。
現(xiàn)有主流方案大多采用 “先生成、再綁骨” 的串行路線。第一步,生成模型根據(jù)圖片產(chǎn)出一個(gè)靜態(tài) 3D 形狀;第二步,再調(diào)用自動(dòng)綁骨方法去推斷骨架和蒙皮。
問題恰恰出在第二步。
自動(dòng)綁骨對(duì)幾何結(jié)構(gòu)非常敏感,而 AIGC 生成出來的網(wǎng)格,往往會(huì)帶著一些人眼不太在意、但對(duì)算法很致命的小問題。比如局部黏連、細(xì)節(jié)拓?fù)洳环€(wěn)定、姿態(tài)帶來的結(jié)構(gòu)歧義。結(jié)果就是,后處理一旦接上,骨架可能缺骨、連錯(cuò),蒙皮也可能分配失真。模型看著像那么回事,真正動(dòng)起來卻完全不是那回事。
AniGen 的做法,是干脆不把 “形狀” 和 “可動(dòng)性” 拆開處理。
作者提出了一個(gè)統(tǒng)一表示,叫 S^3 Fields,把幾何、骨架、蒙皮放在同一個(gè)共享空間里聯(lián)合生成。也就是說,模型在生成幾何外形的同時(shí),也在同步生成與之匹配的骨架和蒙皮信息,而不是把 rigging 留到最后再補(bǔ)。
為了讓這套統(tǒng)一表示真正可學(xué)、可生成,作者設(shè)計(jì)了兩個(gè)關(guān)鍵模塊。
第一個(gè)是置信度衰減的骨骼場。可以把它理解成,模型在學(xué)骨架的時(shí)候,不只是輸出 “骨頭該長在哪里”,還會(huì)顯式建模 “哪些區(qū)域本來就更模糊、更容易出錯(cuò)”。這樣做的好處是,模型不會(huì)被邊界附近那些歧義位置帶偏,最終長出來的骨架更干凈、更穩(wěn)定。
第二個(gè)是對(duì)偶蒙皮場。蒙皮權(quán)重本來很麻煩,因?yàn)椴煌瑢?duì)象的關(guān)節(jié)數(shù)差異很大,魚、狗、人、機(jī)械臂根本不是一個(gè)復(fù)雜度。AniGen 把這件事改寫成一種與關(guān)節(jié)數(shù)量解耦的特征表示,因此同一套網(wǎng)絡(luò)就能覆蓋更廣的類別。
在生成流程上,它采用兩階段 flow matching。第一階段先生成稀疏的結(jié)構(gòu)腳手架,第二階段再在這個(gè)結(jié)構(gòu)基礎(chǔ)上補(bǔ)全高分辨率幾何和 articulation 細(xì)節(jié)。這個(gè)順序很像先把 “骨架輪廓和組織方式” 搭出來,再往上長肉和細(xì)節(jié)。
![]()
AniGen 方法圖
從實(shí)驗(yàn)結(jié)果看,AniGen 的重點(diǎn)優(yōu)勢(shì)不是單純幾何分?jǐn)?shù),而是 “生成結(jié)果到底能不能真正拿去動(dòng)”。論文在 ArticulationXL 數(shù)據(jù)集上,把它和 TRELLIS*+UniRig/Anymate/Puppeteer/RigAnything 等強(qiáng)基線做了系統(tǒng)比較。結(jié)果顯示,AniGen 在骨架結(jié)構(gòu)預(yù)測(cè)和蒙皮精度上都取得了最好結(jié)果,尤其是在更反映骨架拓?fù)湔_性的 Gromov-Wasserstein 距離,以及對(duì)蒙皮分布更敏感的 Skin KL 指標(biāo)上,領(lǐng)先幅度明顯。
下圖給出了與主流 “先生成、再綁骨” 方案的直觀對(duì)比。可以看到,在骨架結(jié)構(gòu)、蒙皮質(zhì)量和最終動(dòng)畫可用性上,AniGen 的結(jié)果更穩(wěn)定:
![]()
AniGen 與基線方法對(duì)比
更有意思的是泛化能力。項(xiàng)目頁里能看到的結(jié)果并不局限于人物或動(dòng)物,還包括植物、卡通角色、機(jī)械臂等對(duì)象。鯨魚可以游動(dòng),狗可以奔跑,人物可以擺動(dòng)作,機(jī)械臂可以抓取物體,植物還能在不同狀態(tài)間切換。
下面這張 in-the-wild 總覽圖,展示了 AniGen 從單圖出發(fā)生成不同類別可動(dòng)畫資產(chǎn)的能力。可以看到,它既覆蓋動(dòng)物、人物和卡通角色,也覆蓋植物和機(jī)械對(duì)象,并且不是只生成一個(gè)靜態(tài)外形,而是同時(shí)給出骨架與可驅(qū)動(dòng)結(jié)果:
![]()
AniGen in-the-wild 結(jié)果圖
下面這個(gè) GIF 展示了 AniGen 在多類別上的動(dòng)態(tài)生成效果:
AniGen 動(dòng)態(tài)展示
![]()
如果看更具體的單案例,狗的例子能更直觀地體現(xiàn) “生成后可直接做動(dòng)作” 這件事:
![]()
![]()
![]()
AniGen 小狗案例動(dòng)圖
而且這個(gè)結(jié)果不是 “看起來像在動(dòng)”,它背后有明確生成出來的骨架結(jié)構(gòu)。對(duì)應(yīng)的 skeleton overlay GIF 更能看出 AniGen 的輸出已經(jīng)具備可動(dòng)畫資產(chǎn)需要的結(jié)構(gòu)信息:
再看機(jī)械臂案例,AniGen 不只是 “重建出一個(gè)機(jī)械外形”,而是生成了一個(gè)可以直接被驅(qū)動(dòng)的 articulated object:
![]()
![]()
![]()
AniGen 機(jī)械臂生成
這意味著 AniGen 想解決的不是某個(gè)垂類的小任務(wù),而是一個(gè)更大的問題:未來的 3D 生成模型,能不能從 “只會(huì)做靜態(tài)殼子”,升級(jí)為 “直接生成可交互對(duì)象”。
如果把 AniGen 放到不同領(lǐng)域里看,它的價(jià)值會(huì)更直觀:
- 對(duì)圖形學(xué)來說,它在推動(dòng) 3D 生成從靜態(tài)幾何走向可動(dòng)畫表示。
- 對(duì) AIGC 與動(dòng)態(tài)創(chuàng)作來說,它讓生成內(nèi)容擁有后續(xù)編排動(dòng)作、重設(shè)姿態(tài)和多輪編輯的空間。
- 對(duì)動(dòng)畫制作來說,它縮短了從參考圖到可驅(qū)動(dòng)資產(chǎn)之間的距離。
- 對(duì)游戲開發(fā)來說,它更接近可進(jìn)入交互流程的角色和道具體系。
- 對(duì)仿真系統(tǒng)來說,它提供的不只是外觀,還包括更適合控制和操作的結(jié)構(gòu)信息。
- 對(duì)具身智能來說,它指向的是 “帶有結(jié)構(gòu)與可動(dòng)性先驗(yàn)的 3D 世界對(duì)象”,而不是單純視覺外殼。
畢竟很多場景真正缺的,從來不是一個(gè)會(huì)轉(zhuǎn)的 3D 模型,而是一個(gè)可以被驅(qū)動(dòng)、被編輯、被復(fù)用的數(shù)字角色。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
AniGen 在具身智能的機(jī)械手和動(dòng)畫角色創(chuàng)作方面都有巨大的實(shí)際價(jià)值
從更長的技術(shù)脈絡(luò)看,AniGen 的意義可能不只是 “多做了一步 rigging”。它更像是在提示一個(gè)方向:未來的 3D 生成模型,不該只生成一個(gè)靜態(tài)外殼,而應(yīng)該直接生成具有結(jié)構(gòu)、功能和交互能力的數(shù)字對(duì)象。對(duì)于動(dòng)畫制作、游戲開發(fā)、虛擬現(xiàn)實(shí)、具身智能乃至數(shù)字孿生來說,這類能力都是下一階段內(nèi)容自動(dòng)化的重要基礎(chǔ)。把幾何、骨架、蒙皮統(tǒng)一建模,已經(jīng)讓 3D 生成離真正可用的數(shù)字內(nèi)容更近了一步。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.