網易首頁 > 網易號 > 正文申請入駐

CHI 2026最佳論文提名｜一臺手機，從任意物體捕捉角色動畫

2026-04-03 13:03:19　來源: 機器之心Pro

河北舉報

分享至

角色動畫創作是現代影視游戲行業中藝術張力的基石。然而，創作角色動畫并非易事。現有動畫創作流程中，動作捕捉系統需要專門的設備和演出團隊，導致成本高昂；3D 動畫軟件則需要專業動畫師來操作，因為在 2D 屏幕內編輯 3D 骨骼運動并不符合人類直覺，此類軟件往往學習曲線陡峭、經驗要求極高。實踐中，一段動畫從設計到交付的周期較長，一段 15 秒的角色動畫往往需要迭代數天才能完工。

為了簡化動作創作流程，部分研究者們提出 “數字木偶戲” 問題：希望通過直觀操作物理代理，如玩偶、手機、物理傳感器、手指等，將物理世界中直觀演繹的動作轉化為虛擬世界中角色的骨骼動畫。然而，現有系統往往采用基于小樣本的、特定規則的、手工設計的傳統機器學習算法，只能夠針對特定的輸入物體，產出特定預設的有限幾種角色動畫。這一技術路線不具有泛化能力，極大限制了此類系統的實際應用價值。

針對這一現狀，一個來自愛丁堡大學、蔚藍海岸大學、清華大學的聯合研究團隊提出了DancingBox，并獲得了人機交互（Human-Computer Interaction）領域頂會 ACM CHI 2026 的最佳論文提名。

項目主頁：https://yyyyyhc.github.io/DancingBox-project-page
論文鏈接：https://arxiv.org/html/2603.17704v1
代碼鏈接：https://github.com/YYYYYHC/DancingBox

DancingBox 第一次實現了僅需 RGB 相機，對任意物體生效，產出高質量角色動畫的能力。下表 1 給出了其與現有工作的對比。

表 1：DancingBox 與現有工作的對比

該團隊重新思考了大模型時代的數字木偶戲問題與動作捕捉系統。

他們發現，將現有的幾個視覺大模型結合，已經可以實現對任意物體的粗略動作捕捉（包圍盒運動序列）。考慮到視覺大模型空間精度有限，且木偶戲類的演出往往缺失細節，本研究進一步利用動作生成模型，將粗略動捕結果 “翻譯” 成對應的、精細的角色骨骼動畫。

圖 1：系統概覽。本文展示的帶模型角色動畫使用默認 mesh 模型，并由 Blender 插件自動重定向。

如圖 1，DancingBox 系統僅需一臺普通相機（如手機），地面標定（如本文使用的視覺標定板等任意平坦物體），及任意演出物體即可工作。能夠將粗略的物體演出通過包圍盒做中介，轉化為對應的真實感角色動畫。

系統實現

DancingBox 系統分為兩個模塊：基于視覺基礎模型的粗略動作捕捉（MoCap）與基于擴散模型的精細動作生成（MoGen）。

粗略動作捕捉（MoCap）

圖 2：MoCap 系統。

如圖 2，給定一段用戶操作的物體視頻，該團隊的做法是結合三個視覺基礎模型（SAM2， CoTracker3，π3），從 2D 輸入中估計出 3D 包圍盒運動序列。

具體而言，先使用 π3，將視頻逐幀轉化為 3D 單目點云。而后為了定位感興趣的物體和抽象層次，用戶與 SAM2-video 交互，將感興趣物體的各個部分在第一幀內分割出來。

結合這二者，能夠獲取各個運動部位的逐幀 3D 點云。

此后，為了估計出時空中連續的包圍盒序列，從起始幀估計 PCA 包圍盒作為初始化，并用 CoTracker3 提取出像素級別的追蹤關系，這一關系通過 π3 提供的像素-點云對應，轉化為空間中點與點間的幀間對應關系。通過 SVD 分解，便可以解出完整的包圍盒運動序列。

讀者也許會疑惑計算包圍盒的動機：既然 π3 和 SAM2 已經能夠給出每幀的空間信號（粗略點云），似乎可以直接將這些點云作為后續精細動作生成的輸入，從而省略掉 CoTracker3 模塊。

圖 3：通過包圍盒橋接動作估計模塊與動作生成模塊，解除數據稀缺的限制。

如圖 3，使用包圍盒的核心考慮是數據問題：為了訓練由空間信號（點云/包圍盒序列）約束的動作生成模型，需要該空間信號和真實動作（來自動捕數據集）的數據對。

然而，由于視覺重建方案得出的點云是表面（而非骨骼）的部分采樣，僅從動作捕捉數據集的骨骼無法構造出合理的數據對，即無法估計骨骼的 “粗細” 和觀測時的 “正反面”。

包圍盒序列就是為了解決這一問題：一方面，給定點云的視覺跟蹤信號（CoTracker3），包圍盒運動信息能夠從粗略點云中估計出來；另一方面，從動捕數據集的骨骼運動數據中，可以直接算出對應包圍盒序列。只要約定好包圍盒大小范圍，這一中間表示就能夠完美橋接兩個系統。

精細動作生成（MoGen）

承接上文，現在我們需要訓練以包圍盒序列為條件的精細動作生成模型。基于動作捕捉數據集 HumanML3D，先從數據集中真實采集的人體骨骼動畫中，按照圖 4 所示的包圍盒合并策略，計算同一段骨骼運動在各種排布方式下產生的包圍盒運動序列。

為了模擬真實場景中估計不準確的問題，再隨機放大/縮小/丟棄掉部分包圍盒，并向包圍盒運動中加入隨機速度/位置噪聲。

圖 4：初始包圍盒生成邏輯。

接著再訓練一個 ControlNet，向預訓練好的文本生成動作模型 (Human-Motion-Diffusion-Model，簡稱 MDM）注入額外的包圍盒控制信號。

圖 5：MoGen 系統。

特別地，考慮到包圍盒內部的頂點順序、同一時刻包圍盒之間的排列順序不應該影響該時刻提取出的特征，如圖 5 所示，該團隊參考 PointNet，用平均與最大值運算保證特征的順序無關性。

用戶調研

本文進行了廣泛的用戶調研。在用戶反饋中，DancingBox 符合直覺，易于使用，即使是新手也可以在短時間內使用系統自由創作。部分問卷結果如圖 6。

圖 6：部分問卷結果。

特別地，從用戶調研中，該團隊發現：

用戶希望有更靈活自由的物體，實現精細的多樣演出。
用戶認為雙手控制多關節物體運動存在困難。同時物體是否容易站立很大程度上影響操作便利性。

該團隊表示：「自由度與交互簡易度構成了一組 trade-off，我們希望這能夠啟發后續研究，進一步探索可交互設備的更多可能。」

視頻結果展示

更多視頻結果，包括正文中各個圖片的對應案例，請見項目主頁。

作者信息

本文的第一作者袁浩程是愛丁堡大學三年級的博士生，他的研究興趣是用戶友好的計算機輔助設計（CAD），指導老師為愛丁堡大學李昌健助理教授。

DancingBox 系統處于持續研究升級中，歡迎感興趣的研究人員與動畫/游戲行業人員聯系作者團隊。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.