網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

VAST+香港大學(xué)AniGen把AIGC推向動(dòng)畫、游戲、仿真與具身智能

2026-04-21 12:13:21　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

如果把今天最熱門的幾個(gè)方向擺在一起看，你會(huì)發(fā)現(xiàn)它們其實(shí)在卡同一道坎。

做 AIGC 的人會(huì)覺得，現(xiàn)在的 3D 生成已經(jīng)能 “做出東西”，但還很難真正進(jìn)入創(chuàng)作流程；做圖形學(xué)和動(dòng)畫的人會(huì)發(fā)現(xiàn)，很多自動(dòng)生成結(jié)果只能看，不能動(dòng)；做游戲和 VR 的人會(huì)關(guān)心，這些資產(chǎn)能不能直接進(jìn)入交互；做仿真和具身智能的人則更在意，生成出來的對(duì)象有沒有結(jié)構(gòu)、能不能被控制、能不能放進(jìn)一個(gè)可操作的三維世界。

這些問題背后，其實(shí)都指向同一個(gè)核心門檻：

今天很多 3D AIGC 結(jié)果，仍然只是 “靜態(tài)的 3D 外殼”，而不是 “能動(dòng)、能控、能進(jìn)入工作流的數(shù)字資產(chǎn)”。

SIGGRAPH 2026 論文 AniGen: Unified S^3 Fields for Animatable 3D Asset Generation 正是在試圖跨過這道門檻。它做的不是單純把一張圖變成一個(gè) 3D 模型，而是從單張圖片直接生成帶骨架與蒙皮權(quán)重的可動(dòng)畫 3D 資產(chǎn)。

這意味著，對(duì)動(dòng)畫制作來說，它生成的不是擺件，而是更接近可直接驅(qū)動(dòng)的角色或道具；對(duì)游戲開發(fā)來說，它離 “可進(jìn)入引擎” 的資產(chǎn)更近；對(duì)動(dòng)態(tài)創(chuàng)作和視頻生成來說，它提供的是可以被重新擺姿態(tài)和編排動(dòng)作的 3D 元素；對(duì)仿真和具身智能來說，它生成的也不只是外觀，而是帶有結(jié)構(gòu)先驗(yàn)、可被進(jìn)一步控制的對(duì)象。

論文來自 VAST 和香港大學(xué)，核心目標(biāo)非常直接：給定單張圖片，直接生成帶骨架與蒙皮權(quán)重的 3D 資產(chǎn)，而不是先生成一個(gè)靜態(tài)模型，再補(bǔ)一套脆弱的自動(dòng)綁骨流程。

本文作者是來自香港大學(xué)博士生黃熠華，通訊作者是VAST公司首席科學(xué)家曹炎培博士和香港大學(xué)齊曉娟教授。

論文：AniGen: Unified S^3 Fields for Animatable 3D Asset Generation
會(huì)議：SIGGRAPH 2026 (TOG)
項(xiàng)目主頁：https://yihua7.github.io/AniGen-web/
代碼：https://github.com/VAST-AI-Research/AniGen
Demo：https://huggingface.co/spaces/VAST-AI/AniGen

AniGen 海報(bào)

過去兩年，AIGC 把 3D 內(nèi)容生成推到了一個(gè)很熱的階段。無論是文生 3D 還是圖生 3D，模型已經(jīng)能生成越來越像樣的幾何和外觀。但在真正的動(dòng)畫、游戲、VR、數(shù)字人和具身智能流程里，只有 “像一個(gè) 3D 模型” 還遠(yuǎn)遠(yuǎn)不夠。

真正能進(jìn)入生產(chǎn)流程的，是可動(dòng)畫 3D 資產(chǎn)。

這類資產(chǎn)除了幾何形狀本身，還需要完整的骨架結(jié)構(gòu)，以及控制模型如何隨骨架運(yùn)動(dòng)而變形的蒙皮權(quán)重。沒有這兩樣，生成結(jié)果再精致，也更像一個(gè)靜態(tài)擺件，而不是可以被驅(qū)動(dòng)、編輯和復(fù)用的數(shù)字角色或道具。

現(xiàn)有主流方案大多采用 “先生成、再綁骨” 的串行路線。第一步，生成模型根據(jù)圖片產(chǎn)出一個(gè)靜態(tài) 3D 形狀；第二步，再調(diào)用自動(dòng)綁骨方法去推斷骨架和蒙皮。

問題恰恰出在第二步。

自動(dòng)綁骨對(duì)幾何結(jié)構(gòu)非常敏感，而 AIGC 生成出來的網(wǎng)格，往往會(huì)帶著一些人眼不太在意、但對(duì)算法很致命的小問題。比如局部黏連、細(xì)節(jié)拓?fù)洳环€(wěn)定、姿態(tài)帶來的結(jié)構(gòu)歧義。結(jié)果就是，后處理一旦接上，骨架可能缺骨、連錯(cuò)，蒙皮也可能分配失真。模型看著像那么回事，真正動(dòng)起來卻完全不是那回事。

AniGen 的做法，是干脆不把 “形狀” 和 “可動(dòng)性” 拆開處理。

作者提出了一個(gè)統(tǒng)一表示，叫 S^3 Fields，把幾何、骨架、蒙皮放在同一個(gè)共享空間里聯(lián)合生成。也就是說，模型在生成幾何外形的同時(shí)，也在同步生成與之匹配的骨架和蒙皮信息，而不是把 rigging 留到最后再補(bǔ)。

為了讓這套統(tǒng)一表示真正可學(xué)、可生成，作者設(shè)計(jì)了兩個(gè)關(guān)鍵模塊。

第一個(gè)是置信度衰減的骨骼場。可以把它理解成，模型在學(xué)骨架的時(shí)候，不只是輸出 “骨頭該長在哪里”，還會(huì)顯式建模 “哪些區(qū)域本來就更模糊、更容易出錯(cuò)”。這樣做的好處是，模型不會(huì)被邊界附近那些歧義位置帶偏，最終長出來的骨架更干凈、更穩(wěn)定。

第二個(gè)是對(duì)偶蒙皮場。蒙皮權(quán)重本來很麻煩，因?yàn)椴煌瑢?duì)象的關(guān)節(jié)數(shù)差異很大，魚、狗、人、機(jī)械臂根本不是一個(gè)復(fù)雜度。AniGen 把這件事改寫成一種與關(guān)節(jié)數(shù)量解耦的特征表示，因此同一套網(wǎng)絡(luò)就能覆蓋更廣的類別。

在生成流程上，它采用兩階段 flow matching。第一階段先生成稀疏的結(jié)構(gòu)腳手架，第二階段再在這個(gè)結(jié)構(gòu)基礎(chǔ)上補(bǔ)全高分辨率幾何和 articulation 細(xì)節(jié)。這個(gè)順序很像先把 “骨架輪廓和組織方式” 搭出來，再往上長肉和細(xì)節(jié)。

AniGen 方法圖

從實(shí)驗(yàn)結(jié)果看，AniGen 的重點(diǎn)優(yōu)勢(shì)不是單純幾何分?jǐn)?shù)，而是 “生成結(jié)果到底能不能真正拿去動(dòng)”。論文在 ArticulationXL 數(shù)據(jù)集上，把它和 TRELLIS*+UniRig/Anymate/Puppeteer/RigAnything 等強(qiáng)基線做了系統(tǒng)比較。結(jié)果顯示，AniGen 在骨架結(jié)構(gòu)預(yù)測(cè)和蒙皮精度上都取得了最好結(jié)果，尤其是在更反映骨架拓?fù)湔_性的 Gromov-Wasserstein 距離，以及對(duì)蒙皮分布更敏感的 Skin KL 指標(biāo)上，領(lǐng)先幅度明顯。

下圖給出了與主流 “先生成、再綁骨” 方案的直觀對(duì)比。可以看到，在骨架結(jié)構(gòu)、蒙皮質(zhì)量和最終動(dòng)畫可用性上，AniGen 的結(jié)果更穩(wěn)定：

AniGen 與基線方法對(duì)比

更有意思的是泛化能力。項(xiàng)目頁里能看到的結(jié)果并不局限于人物或動(dòng)物，還包括植物、卡通角色、機(jī)械臂等對(duì)象。鯨魚可以游動(dòng)，狗可以奔跑，人物可以擺動(dòng)作，機(jī)械臂可以抓取物體，植物還能在不同狀態(tài)間切換。

下面這張 in-the-wild 總覽圖，展示了 AniGen 從單圖出發(fā)生成不同類別可動(dòng)畫資產(chǎn)的能力。可以看到，它既覆蓋動(dòng)物、人物和卡通角色，也覆蓋植物和機(jī)械對(duì)象，并且不是只生成一個(gè)靜態(tài)外形，而是同時(shí)給出骨架與可驅(qū)動(dòng)結(jié)果：

AniGen in-the-wild 結(jié)果圖

下面這個(gè) GIF 展示了 AniGen 在多類別上的動(dòng)態(tài)生成效果：

AniGen 動(dòng)態(tài)展示

如果看更具體的單案例，狗的例子能更直觀地體現(xiàn) “生成后可直接做動(dòng)作” 這件事：

AniGen 小狗案例動(dòng)圖

而且這個(gè)結(jié)果不是 “看起來像在動(dòng)”，它背后有明確生成出來的骨架結(jié)構(gòu)。對(duì)應(yīng)的 skeleton overlay GIF 更能看出 AniGen 的輸出已經(jīng)具備可動(dòng)畫資產(chǎn)需要的結(jié)構(gòu)信息：

再看機(jī)械臂案例，AniGen 不只是 “重建出一個(gè)機(jī)械外形”，而是生成了一個(gè)可以直接被驅(qū)動(dòng)的 articulated object：

AniGen 機(jī)械臂生成

這意味著 AniGen 想解決的不是某個(gè)垂類的小任務(wù)，而是一個(gè)更大的問題：未來的 3D 生成模型，能不能從 “只會(huì)做靜態(tài)殼子”，升級(jí)為 “直接生成可交互對(duì)象”。

如果把 AniGen 放到不同領(lǐng)域里看，它的價(jià)值會(huì)更直觀：

對(duì)圖形學(xué)來說，它在推動(dòng) 3D 生成從靜態(tài)幾何走向可動(dòng)畫表示。
對(duì) AIGC 與動(dòng)態(tài)創(chuàng)作來說，它讓生成內(nèi)容擁有后續(xù)編排動(dòng)作、重設(shè)姿態(tài)和多輪編輯的空間。
對(duì)動(dòng)畫制作來說，它縮短了從參考圖到可驅(qū)動(dòng)資產(chǎn)之間的距離。
對(duì)游戲開發(fā)來說，它更接近可進(jìn)入交互流程的角色和道具體系。
對(duì)仿真系統(tǒng)來說，它提供的不只是外觀，還包括更適合控制和操作的結(jié)構(gòu)信息。
對(duì)具身智能來說，它指向的是 “帶有結(jié)構(gòu)與可動(dòng)性先驗(yàn)的 3D 世界對(duì)象”，而不是單純視覺外殼。

畢竟很多場景真正缺的，從來不是一個(gè)會(huì)轉(zhuǎn)的 3D 模型，而是一個(gè)可以被驅(qū)動(dòng)、被編輯、被復(fù)用的數(shù)字角色。

AniGen 在具身智能的機(jī)械手和動(dòng)畫角色創(chuàng)作方面都有巨大的實(shí)際價(jià)值

從更長的技術(shù)脈絡(luò)看，AniGen 的意義可能不只是 “多做了一步 rigging”。它更像是在提示一個(gè)方向：未來的 3D 生成模型，不該只生成一個(gè)靜態(tài)外殼，而應(yīng)該直接生成具有結(jié)構(gòu)、功能和交互能力的數(shù)字對(duì)象。對(duì)于動(dòng)畫制作、游戲開發(fā)、虛擬現(xiàn)實(shí)、具身智能乃至數(shù)字孿生來說，這類能力都是下一階段內(nèi)容自動(dòng)化的重要基礎(chǔ)。把幾何、骨架、蒙皮統(tǒng)一建模，已經(jīng)讓 3D 生成離真正可用的數(shù)字內(nèi)容更近了一步。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.