網易首頁 > 網易號 > 正文申請入駐

視頻生成三大難題，被智譜這四項開源技術攻克了

2025-12-14 18:06:17　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在，歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動，最高可得算力券+token包380元獎勵，歡迎參與和支持！

過去一周，智譜 GLM 先后開源了多模態模型家族：從「眼睛看得見」的視覺理解模型 GLM?4.6V，到「手能動起來」的 AutoGLM，再到「語音聽得懂」的 GLM?ASR，與「話能說出口」的 GLM?TTS。

GLM 團隊希望讓大模型逐步擁有人的世界知識、記憶能力、復雜推理能力，以及擁有多模態處理能力，最終實現 AGI。在一周內，智譜 GLM 開源了覆蓋視覺理解、設備操作、語音的多模態模型，從文本擴展到多模態，不斷探尋智能邊界。

在多模態開源周的收官之日，智譜 GLM 再開源四項面向視頻生成的核心技術成果：SCAIL、RealVideo、Kaleido 與 SSVAE。它們對準當前視頻生成領域的三大難點：精細化可控生成、復雜時空結構建模，以及大規模訓練成本控制。

SCAIL：影視級角色動畫生成框架，實現 SOTA 姿態控制；

RealVideo：實時流式視頻生成系統，僅 2-3 秒首響延遲；

Kaleido：多主體視頻生成框架，一致性開源 SOTA；

SSVAE：頻譜結構化變分自編碼器 VAE，3 倍收斂加速。

智譜 GLM 希望通過開源這四項底層技術，為繁榮的視頻生成技術社區、產品社區，提供一些工程方案與理論研究，方便社區直接復現與二次開發。已上線始智AI-wisemodel開源社區，歡迎體驗。

模型地址

https://wisemodel.cn/organization/ZhipuAI

01.

SCAIL：影視級復雜姿態控制角色動畫

開源周謝幕之

，來自SCAIL復雜

姿態控

姿態可控角色動畫生成（Pose Controlled Character Animation）可以實現讓一張照片根據指定動作運動。然而，基于2D骨骼點的傳統方法由于無法編碼深度信息與遮擋關系，在處理復雜動作（如空翻、街舞）時，常導致肢體結構崩壞或違反物理規律。進一步，由于姿態編碼和姿態輸入方式的限制，該技術始終難以實現多人復雜交互動作的生成，難以面對影視級專業需求。

智譜與清華劉永進教授課題組合作提出了一套面向影視級標準的角色動畫生成框架SCAIL（Studio-grade Character Animation via In-context Learning），通過識別角色動畫中的關鍵瓶頸，即姿態表征與注入機制，解決了生成過程中的時空一致性問題，不僅在單人運動上取得了SOTA效果，更將角色動畫應用場景擴展到復雜多人交互。

3D一致性姿態表征3D-Consistent Pose RepresentationSCAIL摒棄了傳統的2D關鍵點或帶有身份信息的SMPL Mesh方案。通過利用3D關節點估計，并在3D空間中將其拓撲結構光柵化渲染為柱體骨骼。這種表征方式顯式地編碼了深度與遮擋關系，使模型能夠區分肢體的前后空間位置，從而在復雜遮擋場景下保持結構完整，并且能夠進行運動信息保持的增強（ Augmentation ）和重定向（ Retarget ）。

全上下文姿態注入（Full-Context Pose Injection）：針對傳統ControlNet或Adapter逐幀控制缺乏全局視野的問題，SCAIL在DiT架構中設計了全上下文注入機制，并在序列維度上通過 Pose-Shifted RoPE （姿態偏移旋轉位置編碼）區分控制信號，迫使模型在生成每一幀時，不僅關注當前時刻，還能對整個動作序列進行時空推理（Spatio-temporal reasoning）。

SCAIL的模型架構圖

02.

RealVideo：實時視頻生成對話系統

基于RealVideo和GLM-TTS聲音克隆，一張圖片+三秒語音，即可與AI角色開啟實時對話。

如今，生成式模型已在視聽質量上取得驚人突破，但目前主流的視頻生成模型往往延遲很高，需要等待1分鐘以上，才能生成一個5秒左右長度的視頻。

為了解決這一問題，團隊研發了實時流式視頻生成系統RealVideo。

RealVideo的核心突破在于將視頻生成的首響延遲從數分鐘大幅壓縮到了2至3秒。正如大家在演示視頻中看到的，用戶只需提供一張靜態照片并提問，兩三秒后，畫面中的人物就能開始流暢、自然地進行回答。這種低延遲的生成能力，支持輸出長達數分鐘的連續對話或演講視頻，讓AI交互從單純的文字或語音對話真正邁向了“實時視頻對話”。

為了實現這一效果，RealVideo在模型架構和工程鏈路上進行了以下三項關鍵改進：

自回歸模型對抗訓練：RealVideo 使用了Self-forcing的框架在雙向視頻生成模型作為教師模型的監督下可以很快的學習到自回歸生成的模式，同時使用了對抗損失進行監督，將視頻漂移的問題大幅減少。
滑動注意力窗口與Dynamic Sink RoPE：為了保證實時生成的延遲在可控的范圍內， RealVideo 使用了滑動窗口的策略，當視頻的整體長度大于k時會對之前幀的kv cache進行截斷，從而保證了模型上下文窗口大小為常數，為無限長生成提供了可能。同時Dynamic Sink RoPE策略可以保證相對位置編碼的訓練-推理一致，防止人物形象出現漂移。
流水線Pipeline：針對大模型對話、文本轉語音、視頻生成、VAE解碼等多個流程搭建了一套流水線并行的管線，將CPU、GPU以及API的運行時間盡可能重疊從而極大的降低了首響延遲且提高了生成幀率。從而達到了實時對話的效果。

03.

Kaleido：多主體一致性生成框架

Kaleido在多主體（如人物+物體）及受控背景下的生成效果

在多主體（Multi-Subject）視頻生成任務中，現有模型難以在保持多個參考形象一致性的同時，有效提取參考主體的真正身份特征。常見問題是在生成視頻中直接復制參考圖像，將參考圖中的背景和主體的姿態等信息誤認為主體身份特征，導致生成的主體運動不夠靈活、表現力不足。

Kaleido 針對多主體生成的挑戰，提出了一套從數據構建到參考信息注入的完整解決方案，在開源模型中達到了SOTA表現。

Reference Rotary Positional Encoding（R-ROPE）：為了在 DiT 架構中精確區分不同的參考圖像與視頻 Token，Kaleido 引入了 R-ROPE 機制。該機制對參考圖像的 Token 進行獨立的旋轉位置編碼，通過顯式的空間位移，在注意力計算層面確立了不同主體與視頻幀之間的清晰邊界，有效解決了多主體特征混淆的問題。
Cross-Paired 數據構建管線：針對背景糾纏問題，構建了包含背景修復與運動增強的數據處理管線，合成了大量跨配對訓練數據。這一策略強迫模型在訓練時必須從參考圖中解耦出主體特征，而非簡單復制像素，從而大幅提升了背景解耦能力。

Kaleido的模型架構圖

04.

SSVAE：基于譜分析的視頻VAE隱空間優化

視頻生成模型的訓練成本極高，而業界傳統的視頻VAE優化目標主要針對像素級重構質量。但研究發現，相比于重構質量，隱變量結構對擴散模型的收斂貢獻更大。

SSVAE（Spectral-Structured VAE）從譜分析的第一性原理出發，揭示了影響擴散模型訓練效率的關鍵統計特性，并據此優化 VAE 的訓練目標。

譜特性分析與正則化：通過大量實驗發現，具有時空低頻偏置（ Low-Frequency Bias ）和通道特征值的少模式偏置（ Few-Mode Bias ）的隱空間分布，能顯著加速擴散模型的訓練。

訓練效率提升：實驗數據表明，使用SSVAE提取的Latent訓練視頻擴散模型，在達到相同生成質量的前提下，收斂速度提升了3倍。同時，SSVAE僅需1.3B 參數量的擴散模型即可在性能上超越基于Wan 2.2 VAE的 4B參數量的擴散模型。

SSVAE通過譜正則化，在訓練收斂速度和 Video Reward 上相對于 Baseline 的顯著提升，超越Wan 2.2 VAE。

----- END -----

wisemodel相關：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發，熟悉K8S、模型訓練和推理等技術，以及熟悉開發者生態運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.