網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Seedance3.0技術(shù)曝光！Helios首個(gè)單卡實(shí)時(shí)生成長(zhǎng)視頻模型開(kāi)源

2026-03-10 18:22:00　來(lái)源: wisemodel開(kāi)源社區(qū)

北京舉報(bào)

分享至

始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開(kāi)放的AI開(kāi)源社區(qū)，始終堅(jiān)持“中立、開(kāi)放、共建、共創(chuàng)、合作”五項(xiàng)基本原則，歡迎加入共同成長(zhǎng)。

在人工智能領(lǐng)域，尤其是視頻生成方向，一個(gè)核心的“不可能三角”長(zhǎng)期困擾著研究者：高畫(huà)質(zhì)、長(zhǎng)時(shí)長(zhǎng)、實(shí)時(shí)生成。Seedance 2.0雖然能生成驚艷的短視頻片段，但通常每生成5-10秒的視頻就需要耗費(fèi)數(shù)分鐘甚至數(shù)十分鐘的計(jì)算時(shí)間，且視頻時(shí)長(zhǎng)難以突破訓(xùn)練時(shí)的限制。據(jù)推特的有關(guān)爆料，其下個(gè)版本Seedance 3.0的目標(biāo)和Helios一樣，即在超大規(guī)模參數(shù)參數(shù)模型上實(shí)現(xiàn)長(zhǎng)視頻的實(shí)時(shí)生成。

由北京大學(xué)、字節(jié)跳動(dòng)、Canva等機(jī)構(gòu)聯(lián)合提出的 Helios模型，旨在打破這一僵局。Helios是一個(gè)擁有140億（14B）參數(shù)的巨大模型，卻在單張NVIDIA H100 GPU上實(shí)現(xiàn)了高達(dá) 19.5 FPS 的端到端推理速度（比1.3B還快），同時(shí)支持分鐘級(jí)別的長(zhǎng)視頻生成，且畫(huà)質(zhì)堪比當(dāng)前最強(qiáng)的基線模型（如14B的Wan）。這一成果標(biāo)志著視頻生成領(lǐng)域向著“實(shí)時(shí)、無(wú)限、高質(zhì)量”的目標(biāo)邁出了關(guān)鍵一步。Helios系列模型已經(jīng)發(fā)布在wisemodel社區(qū)，歡迎前往了解詳情~

模型地址

https://wisemodel.cn/models/SHYuanBest/Helios-Base

01.

核心挑戰(zhàn)與目標(biāo)

論文開(kāi)篇便明確指出了當(dāng)前視頻生成領(lǐng)域的三大瓶頸：

實(shí)時(shí)性差：即使是最先進(jìn)的開(kāi)源模型（如Wan2.1 14B），生成一個(gè)5秒視頻在單張A100上需耗時(shí)約50分鐘。一些宣稱“實(shí)時(shí)”的方案，要么基于小模型（1.3B參數(shù)），畫(huà)質(zhì)有限；要么依賴多卡并行，并非真正的單卡實(shí)時(shí)。
長(zhǎng)視頻漂移：模型通常在短片段上訓(xùn)練，在自回歸生成長(zhǎng)視頻時(shí)，累積的誤差會(huì)導(dǎo)致畫(huà)面出現(xiàn)位置跳變、色彩失真、細(xì)節(jié)模糊等“漂移”現(xiàn)象，破壞視頻的連貫性。
計(jì)算成本高昂：訓(xùn)練和推理一個(gè)14B參數(shù)的視頻擴(kuò)散模型需要巨大的計(jì)算和內(nèi)存資源，通常依賴于復(fù)雜的模型并行與分片框架，限制了其研究和應(yīng)用的可及性。

Helios的目標(biāo)是構(gòu)建一個(gè)系統(tǒng)，在不依賴諸如KV緩存、稀疏注意力、量化等常規(guī)加速技術(shù)，也不使用自強(qiáng)迫、錯(cuò)誤庫(kù)等防漂移技巧的前提下，同步解決以上三個(gè)問(wèn)題。

02.

Helios的整體方案

為了實(shí)現(xiàn)目標(biāo)，Helios團(tuán)隊(duì)沿著三個(gè)關(guān)鍵維度進(jìn)行了系統(tǒng)性創(chuàng)新，其整體架構(gòu)如圖4所示。

無(wú)限生成能力：將長(zhǎng)視頻生成定義為“視頻續(xù)寫”，通過(guò)統(tǒng)一歷史注入框架，將一個(gè)原本只能生成固定長(zhǎng)度的雙向預(yù)訓(xùn)練模型，轉(zhuǎn)化為一個(gè)自回歸生成器，并原生支持文本生成視頻（T2V）、圖像生成視頻（I2V）和視頻生成視頻（V2V）三種任務(wù)。
高質(zhì)量抗漂移：深入分析了視頻漂移的三種典型形態(tài)（位置漂移、色彩漂移、修復(fù)漂移），并提出了簡(jiǎn)單有效的抗漂移訓(xùn)練策略，在不進(jìn)行昂貴的長(zhǎng)視頻微調(diào)的情況下，實(shí)現(xiàn)了分鐘級(jí)視頻的穩(wěn)定生成。
實(shí)時(shí)生成效率：提出深度壓縮流，從令牌和采樣步數(shù)兩個(gè)視角進(jìn)行深度壓縮。結(jié)合基礎(chǔ)設(shè)施級(jí)的優(yōu)化，使得一個(gè)14B模型的計(jì)算成本降低到與1.3B模型相當(dāng)甚至更低。

接下來(lái)，我們將深入剖析這三個(gè)維度的具體技術(shù)細(xì)節(jié)。

03.

無(wú)限生成：統(tǒng)一歷史注入

3.1 表示控制：將長(zhǎng)視頻建模為續(xù)寫任務(wù)

Helios的核心思想是將歷史幀作為明確的條件輸入。模型的輸入是歷史上下文 X_Hist 和噪聲上下文 X_Noisy 的拼接。X_Hist 包含已生成的干凈幀，X_Noisy 是待去噪生成的新幀。模型基于 X_Hist 對(duì) X_Noisy 進(jìn)行去噪，生成與歷史內(nèi)容在時(shí)序上連貫的續(xù)寫片段。通過(guò)不斷迭代此過(guò)程（將新生成的幀加入歷史，生成下一片段），理論上可以實(shí)現(xiàn)無(wú)限長(zhǎng)度的視頻生成。

這種方法巧妙地將任務(wù)統(tǒng)一了起來(lái)：當(dāng) X_Hist 全為零時(shí)，模型執(zhí)行T2V；當(dāng) X_Hist 只有最后一幀非零時(shí)，執(zhí)行I2V；當(dāng) X_Hist 包含多幀時(shí)，執(zhí)行V2V。

3.2 引導(dǎo)注意力：區(qū)分對(duì)待歷史與噪聲上下文

論文指出，歷史上下文（干凈、已對(duì)齊文本）與噪聲上下文（嘈雜、待生成）特性不同，應(yīng)區(qū)別對(duì)待。Helios設(shè)計(jì)了引導(dǎo)注意力機(jī)制：

在自注意力層：模型會(huì)計(jì)算歷史和噪聲上下文各自的查詢、鍵、值張量，并通過(guò)一個(gè)可學(xué)習(xí)的“放大令牌” amp 來(lái)調(diào)制歷史鍵，從而選擇性地放大或抑制歷史信息，讓模型更專注于最具判別性的歷史特征。
在交叉注意力層：文本信息只注入到噪聲上下文 X_Noisy 中，因?yàn)闅v史上下文 X_Hist 已經(jīng)包含了之前的語(yǔ)義信息，避免冗余注入。

這種設(shè)計(jì)確保歷史上下文扮演“引導(dǎo)者”角色，而不是被修改的“參與者”，增強(qiáng)了生成過(guò)程的穩(wěn)定性。

04.

高質(zhì)量抗漂移：簡(jiǎn)單有效的策略

論文首次清晰地歸納了長(zhǎng)視頻漂移的三種典型表現(xiàn)（如圖5所示），并提出了對(duì)應(yīng)的解決方案。

4.1 相對(duì)旋轉(zhuǎn)位置編碼：解決位置漂移

位置漂移的主要原因是模型在推理時(shí)遇到了訓(xùn)練時(shí)未見(jiàn)過(guò)的、超出訓(xùn)練范圍的絕對(duì)時(shí)間位置索引。Helios提出了相對(duì)RoPE：無(wú)論生成多長(zhǎng)的視頻，歷史上下文 X_Hist 的時(shí)間索引范圍始終固定（如0到 T_Hist），而噪聲上下文 X_Noisy 的索引則接續(xù)其后（如 T_Hist 到 T_Hist + T_Noisy）。這種相對(duì)索引方式使得模型能夠穩(wěn)定生成任意長(zhǎng)度的視頻，同時(shí)也緩解了RoPE周期性與多頭注意力交互導(dǎo)致的重復(fù)運(yùn)動(dòng)問(wèn)題。

4.2 首幀錨點(diǎn)：抑制色彩漂移

通過(guò)對(duì)正常視頻與漂移視頻的統(tǒng)計(jì)指標(biāo)（飽和度、美學(xué)分?jǐn)?shù)、RGB均值/方差）隨時(shí)間變化的曲線分析（如圖6所示），論文發(fā)現(xiàn)漂移視頻會(huì)在某個(gè)時(shí)刻發(fā)生統(tǒng)計(jì)特性的突然偏移。基于此，Helios在訓(xùn)練和推理時(shí)，始終將視頻的第一幀保留在歷史上下文 X_Hist 中。這一“首幀錨點(diǎn)”作為一個(gè)全局視覺(jué)參照，有效地約束了后續(xù)生成內(nèi)容的分布，防止色彩等整體風(fēng)格隨時(shí)間發(fā)生劇烈漂移。

4.3 幀感知破壞：抵抗修復(fù)漂移

修復(fù)漂移指的是模型在推理時(shí)，以其自身生成的、帶有瑕疵的輸出作為歷史條件，導(dǎo)致誤差累積。為此，Helios在訓(xùn)練階段引入了幀感知破壞，模擬推理時(shí)可能遇到的劣質(zhì)歷史幀。對(duì)于每一幀歷史，隨機(jī)施加曝光調(diào)整、加噪、降采樣后上采樣等擾動(dòng)，強(qiáng)迫模型學(xué)習(xí)對(duì)不完美歷史輸入的魯棒性，從而在推理時(shí)能更好地應(yīng)對(duì)自回歸生成中的誤差累積。

05.

實(shí)時(shí)生成：深度壓縮流

實(shí)現(xiàn)實(shí)時(shí)的關(guān)鍵在于“降本增效”。Helios從兩個(gè)層面進(jìn)行了深度壓縮。

（一）從令牌視角壓縮：減少計(jì)算量

5.1.1 多項(xiàng)記憶塊化：壓縮歷史上下文

并非所有歷史幀都對(duì)預(yù)測(cè)未來(lái)同等重要。近距離歷史幀對(duì)局部運(yùn)動(dòng)至關(guān)重要，而遠(yuǎn)距離歷史幀主要提供全局上下文。基于此，Helios采用分層窗口，將 X_Hist 分為短期、中期、長(zhǎng)期三部分，并分別使用不同尺寸的卷積核進(jìn)行塊化處理。距離越遠(yuǎn)，壓縮比率越大。如圖7所示，這種設(shè)計(jì)在固定令牌預(yù)算下，顯著擴(kuò)展了模型能“看到”的歷史范圍，大幅減少了參與注意力計(jì)算的歷史令牌數(shù)量。

5.1.2 金字塔統(tǒng)一預(yù)測(cè)校正器：壓縮噪聲上下文

受到“早期采樣步驟主導(dǎo)全局結(jié)構(gòu)，后期步驟精修細(xì)節(jié)”的啟發(fā)，Helios提出了金字塔式采樣策略。如圖8所示，去噪過(guò)程被劃分為多個(gè)階段，每個(gè)階段在不同的空間分辨率上進(jìn)行：

低分辨率階段：關(guān)注效率，快速確定全局布局、色彩等。
中分辨率階段：平衡質(zhì)量與效率。
高分辨率階段：專注質(zhì)量，精細(xì)雕琢細(xì)節(jié)。

模型學(xué)習(xí)跨尺度的速度場(chǎng)，并采用統(tǒng)一預(yù)測(cè)校正器來(lái)跨階段協(xié)調(diào)。這種多尺度處理使總計(jì)算量從 O(HW N) 降至接近 O(HW N/K)，其中 K 是階段數(shù)。在實(shí)現(xiàn)相同畫(huà)質(zhì)的前提下，計(jì)算量大幅降低。

（二）從步數(shù)視角壓縮：減少采樣步驟

要將一個(gè)需要50步采樣的擴(kuò)散模型加速到幾步，蒸餾是關(guān)鍵。Helios提出了對(duì)抗分層蒸餾，在分布匹配蒸餾（DMD）框架上進(jìn)行了多項(xiàng)改進(jìn)（如圖9所示）：

純教師強(qiáng)迫：使用高質(zhì)量的Helios-Base模型作為教師，且在蒸餾訓(xùn)練時(shí)，歷史上下文完全由真實(shí)的視頻幀提供（而非像其他方法那樣使用模型自回滾生成的幀），避免了高昂的“訓(xùn)練即推理”回滾計(jì)算，極大提升了訓(xùn)練效率。
分階段反向模擬：將反向采樣過(guò)程也分解為與金字塔采樣對(duì)應(yīng)的多個(gè)階段，與分層壓縮的推理流程對(duì)齊。
由粗到精的學(xué)習(xí)策略：通過(guò)OD E初始化和動(dòng)態(tài)重加噪等課程學(xué)習(xí)技巧，穩(wěn)定分層蒸餾的優(yōu)化過(guò)程。
對(duì)抗后訓(xùn)練：在蒸餾之后，加入一個(gè)基于真實(shí)數(shù)據(jù)的GAN損失，進(jìn)一步突破教師模型的性能上限，提升生成質(zhì)量。

最終，Helios將采樣步驟從50步壓縮到了僅需3步，且無(wú)需分類器自由引導(dǎo)（CFG），進(jìn)一步提速。

06.

基礎(chǔ)設(shè)施優(yōu)化與實(shí)驗(yàn)驗(yàn)證

6.1 基礎(chǔ)設(shè)施優(yōu)化為了在有限的內(nèi)存資源（單張H100 80GB）上訓(xùn)練和推理這個(gè)龐大的模型，論文還介紹了一系列底層優(yōu)化：

分片EMA：將指數(shù)移動(dòng)平均參數(shù)分片存儲(chǔ)在多卡上，節(jié)省內(nèi)存。
異步顯存釋放：在蒸餾訓(xùn)練中，按需加載和卸載生成器、評(píng)分器等模型，通過(guò)流水線掩蓋數(shù)據(jù)傳輸開(kāi)銷。
緩存梯度用于GAN：針對(duì)GAN判別器的訓(xùn)練，通過(guò)緩存梯度來(lái)解耦反向傳播，提前釋放中間激活值，降低峰值內(nèi)存占用。
Flash內(nèi)核優(yōu)化：實(shí)現(xiàn)了高性能的LayerNorm/RMSNorm和旋轉(zhuǎn)位置編碼的Triton內(nèi)核，減少了內(nèi)存訪問(wèn)，提升了計(jì)算吞吐。

6.2 實(shí)驗(yàn)結(jié)果論文構(gòu)建了一個(gè)名為 HeliosBench 的全新基準(zhǔn)，包含240個(gè)提示詞，覆蓋極短到長(zhǎng)四個(gè)時(shí)長(zhǎng)等級(jí)（81, 240, 720, 1440幀）。實(shí)驗(yàn)結(jié)果表明：

速度與性能：如圖1和圖2所示，在單張H100上，Helios（蒸餾版）的推理速度遠(yuǎn)超同級(jí)別的模型（如Wan2.1 14B），甚至快于一些經(jīng)過(guò)蒸餾的1.3B小模型（如某些實(shí)時(shí)生成方案）。同時(shí)，在短、長(zhǎng)視頻生成任務(wù)上，其質(zhì)量評(píng)分均顯著優(yōu)于現(xiàn)有的蒸餾模型，與強(qiáng)大的基礎(chǔ)模型性能相當(dāng)。

長(zhǎng)視頻質(zhì)量：如圖3的案例所示，Helios能夠生成連貫、高質(zhì)量、長(zhǎng)達(dá)1440幀（約48秒）的長(zhǎng)視頻，細(xì)節(jié)豐富，運(yùn)動(dòng)自然，無(wú)明顯漂移。

消融實(shí)驗(yàn)：論文通過(guò)詳盡的消融研究，驗(yàn)證了所提出的統(tǒng)一歷史注入、抗漂移技術(shù)、深度壓縮流等各個(gè)模塊的有效性和必要性。

07.

總結(jié)與展望

Helios的工作為視頻生成領(lǐng)域帶來(lái)了一個(gè)兼具實(shí)用性與研究?jī)r(jià)值的范式。它首次證明了一個(gè)140億參數(shù)的大模型，完全可以在單張GPU上實(shí)現(xiàn)實(shí)時(shí)、長(zhǎng)時(shí)、高質(zhì)量的視頻生成。其技術(shù)創(chuàng)新是系統(tǒng)性的：

在架構(gòu)上，提出了統(tǒng)一歷史注入框架，優(yōu)雅地統(tǒng)一了T2V/I2V/V2V任務(wù)。
在訓(xùn)練上，揭示了漂移的本質(zhì)并提供了輕量級(jí)的解決方案，避免了對(duì)長(zhǎng)視頻數(shù)據(jù)的依賴。
在效率上，通過(guò)深度壓縮流和對(duì)抗分層蒸餾，實(shí)現(xiàn)了數(shù)量級(jí)的速度提升。
在工程上，通過(guò)一系列內(nèi)存與計(jì)算優(yōu)化，讓大模型的訓(xùn)練與部署變得可行。

Helios團(tuán)隊(duì)開(kāi)源代碼、基礎(chǔ)模型和蒸餾模型，這將極大地推動(dòng)社區(qū)在實(shí)時(shí)長(zhǎng)視頻生成方向的探索。這項(xiàng)工作不僅為游戲、影視、交互式內(nèi)容創(chuàng)作等應(yīng)用打開(kāi)了新的想象空間，也為構(gòu)建更高效的“世界模擬器”奠定了重要的技術(shù)基礎(chǔ)。

----- END -----

wisemodel相關(guān)：

系列模型：

關(guān)于wisemodel更多

歡迎持續(xù)關(guān)注和支持

開(kāi)源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入，更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù)，歡迎大家加入wisemodel開(kāi)源社區(qū)的志愿者計(jì)劃和開(kāi)源共創(chuàng)計(jì)劃。期待更多開(kāi)發(fā)者將開(kāi)源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開(kāi)放的AI開(kāi)源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請(qǐng)加入wisemodel社群，持續(xù)關(guān)注wisemodel.cn開(kāi)源社區(qū)動(dòng)態(tài)。

歡迎加盟wisemodel開(kāi)源社區(qū)

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果，鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等，在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是AI領(lǐng)域最新論文解讀、最新開(kāi)源成果介紹，也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關(guān)于wisemodel開(kāi)源社區(qū)

始智AI wisemodel.cn開(kāi)源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書(shū)長(zhǎng)劉道全創(chuàng)立，旨在打造和建設(shè)中立開(kāi)放的AI開(kāi)源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開(kāi)源社區(qū)，匯聚主要AI開(kāi)源模型、數(shù)據(jù)集和代碼等，歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開(kāi)發(fā)者，以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等，還有投資機(jī)構(gòu)、科技媒體等，共同參與建設(shè)AI開(kāi)源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.