![]()
始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開(kāi)放的AI開(kāi)源社區(qū),始終堅(jiān)持“中立、開(kāi)放、共建、共創(chuàng)、合作”五項(xiàng)基本原則,歡迎加入共同成長(zhǎng)。
在人工智能領(lǐng)域,尤其是視頻生成方向,一個(gè)核心的“不可能三角”長(zhǎng)期困擾著研究者:高畫(huà)質(zhì)、長(zhǎng)時(shí)長(zhǎng)、實(shí)時(shí)生成。Seedance 2.0雖然能生成驚艷的短視頻片段,但通常每生成5-10秒的視頻就需要耗費(fèi)數(shù)分鐘甚至數(shù)十分鐘的計(jì)算時(shí)間,且視頻時(shí)長(zhǎng)難以突破訓(xùn)練時(shí)的限制。據(jù)推特的有關(guān)爆料,其下個(gè)版本Seedance 3.0的目標(biāo)和Helios一樣,即在超大規(guī)模參數(shù)參數(shù)模型上實(shí)現(xiàn)長(zhǎng)視頻的實(shí)時(shí)生成。
![]()
由北京大學(xué)、字節(jié)跳動(dòng)、Canva等機(jī)構(gòu)聯(lián)合提出的 Helios模型,旨在打破這一僵局。Helios是一個(gè)擁有140億(14B)參數(shù)的巨大模型,卻在單張NVIDIA H100 GPU上實(shí)現(xiàn)了高達(dá) 19.5 FPS 的端到端推理速度(比1.3B還快),同時(shí)支持分鐘級(jí)別的長(zhǎng)視頻生成,且畫(huà)質(zhì)堪比當(dāng)前最強(qiáng)的基線模型(如14B的Wan)。這一成果標(biāo)志著視頻生成領(lǐng)域向著“實(shí)時(shí)、無(wú)限、高質(zhì)量”的目標(biāo)邁出了關(guān)鍵一步。Helios系列模型已經(jīng)發(fā)布在wisemodel社區(qū),歡迎前往了解詳情~
![]()
模型地址
https://wisemodel.cn/models/SHYuanBest/Helios-Base
01.
核心挑戰(zhàn)與目標(biāo)
論文開(kāi)篇便明確指出了當(dāng)前視頻生成領(lǐng)域的三大瓶頸:
實(shí)時(shí)性差:即使是最先進(jìn)的開(kāi)源模型(如Wan2.1 14B),生成一個(gè)5秒視頻在單張A100上需耗時(shí)約50分鐘。一些宣稱“實(shí)時(shí)”的方案,要么基于小模型(1.3B參數(shù)),畫(huà)質(zhì)有限;要么依賴多卡并行,并非真正的單卡實(shí)時(shí)。
長(zhǎng)視頻漂移:模型通常在短片段上訓(xùn)練,在自回歸生成長(zhǎng)視頻時(shí),累積的誤差會(huì)導(dǎo)致畫(huà)面出現(xiàn)位置跳變、色彩失真、細(xì)節(jié)模糊等“漂移”現(xiàn)象,破壞視頻的連貫性。
計(jì)算成本高昂:訓(xùn)練和推理一個(gè)14B參數(shù)的視頻擴(kuò)散模型需要巨大的計(jì)算和內(nèi)存資源,通常依賴于復(fù)雜的模型并行與分片框架,限制了其研究和應(yīng)用的可及性。
Helios的目標(biāo)是構(gòu)建一個(gè)系統(tǒng),在不依賴諸如KV緩存、稀疏注意力、量化等常規(guī)加速技術(shù),也不使用自強(qiáng)迫、錯(cuò)誤庫(kù)等防漂移技巧的前提下,同步解決以上三個(gè)問(wèn)題。
02.
Helios的整體方案
為了實(shí)現(xiàn)目標(biāo),Helios團(tuán)隊(duì)沿著三個(gè)關(guān)鍵維度進(jìn)行了系統(tǒng)性創(chuàng)新,其整體架構(gòu)如圖4所示。
![]()
無(wú)限生成能力:將長(zhǎng)視頻生成定義為“視頻續(xù)寫”,通過(guò)統(tǒng)一歷史注入框架,將一個(gè)原本只能生成固定長(zhǎng)度的雙向預(yù)訓(xùn)練模型,轉(zhuǎn)化為一個(gè)自回歸生成器,并原生支持文本生成視頻(T2V)、圖像生成視頻(I2V)和視頻生成視頻(V2V)三種任務(wù)。
高質(zhì)量抗漂移:深入分析了視頻漂移的三種典型形態(tài)(位置漂移、色彩漂移、修復(fù)漂移),并提出了簡(jiǎn)單有效的抗漂移訓(xùn)練策略,在不進(jìn)行昂貴的長(zhǎng)視頻微調(diào)的情況下,實(shí)現(xiàn)了分鐘級(jí)視頻的穩(wěn)定生成。
實(shí)時(shí)生成效率:提出深度壓縮流,從令牌和采樣步數(shù)兩個(gè)視角進(jìn)行深度壓縮。結(jié)合基礎(chǔ)設(shè)施級(jí)的優(yōu)化,使得一個(gè)14B模型的計(jì)算成本降低到與1.3B模型相當(dāng)甚至更低。
接下來(lái),我們將深入剖析這三個(gè)維度的具體技術(shù)細(xì)節(jié)。
03.
無(wú)限生成:統(tǒng)一歷史注入
3.1 表示控制:將長(zhǎng)視頻建模為續(xù)寫任務(wù)
Helios的核心思想是將歷史幀作為明確的條件輸入。模型的輸入是歷史上下文 X_Hist 和噪聲上下文 X_Noisy 的拼接。X_Hist 包含已生成的干凈幀,X_Noisy 是待去噪生成的新幀。模型基于 X_Hist 對(duì) X_Noisy 進(jìn)行去噪,生成與歷史內(nèi)容在時(shí)序上連貫的續(xù)寫片段。通過(guò)不斷迭代此過(guò)程(將新生成的幀加入歷史,生成下一片段),理論上可以實(shí)現(xiàn)無(wú)限長(zhǎng)度的視頻生成。
這種方法巧妙地將任務(wù)統(tǒng)一了起來(lái):當(dāng) X_Hist 全為零時(shí),模型執(zhí)行T2V;當(dāng) X_Hist 只有最后一幀非零時(shí),執(zhí)行I2V;當(dāng) X_Hist 包含多幀時(shí),執(zhí)行V2V。
3.2 引導(dǎo)注意力:區(qū)分對(duì)待歷史與噪聲上下文
論文指出,歷史上下文(干凈、已對(duì)齊文本)與噪聲上下文(嘈雜、待生成)特性不同,應(yīng)區(qū)別對(duì)待。Helios設(shè)計(jì)了引導(dǎo)注意力機(jī)制:
在自注意力層:模型會(huì)計(jì)算歷史和噪聲上下文各自的查詢、鍵、值張量,并通過(guò)一個(gè)可學(xué)習(xí)的“放大令牌” amp 來(lái)調(diào)制歷史鍵,從而選擇性地放大或抑制歷史信息,讓模型更專注于最具判別性的歷史特征。
在交叉注意力層:文本信息只注入到噪聲上下文 X_Noisy 中,因?yàn)闅v史上下文 X_Hist 已經(jīng)包含了之前的語(yǔ)義信息,避免冗余注入。
這種設(shè)計(jì)確保歷史上下文扮演“引導(dǎo)者”角色,而不是被修改的“參與者”,增強(qiáng)了生成過(guò)程的穩(wěn)定性。
04.
高質(zhì)量抗漂移:簡(jiǎn)單有效的策略
論文首次清晰地歸納了長(zhǎng)視頻漂移的三種典型表現(xiàn)(如圖5所示),并提出了對(duì)應(yīng)的解決方案。
![]()
4.1 相對(duì)旋轉(zhuǎn)位置編碼:解決位置漂移
位置漂移的主要原因是模型在推理時(shí)遇到了訓(xùn)練時(shí)未見(jiàn)過(guò)的、超出訓(xùn)練范圍的絕對(duì)時(shí)間位置索引。Helios提出了相對(duì)RoPE:無(wú)論生成多長(zhǎng)的視頻,歷史上下文 X_Hist 的時(shí)間索引范圍始終固定(如0到 T_Hist),而噪聲上下文 X_Noisy 的索引則接續(xù)其后(如 T_Hist 到 T_Hist + T_Noisy)。這種相對(duì)索引方式使得模型能夠穩(wěn)定生成任意長(zhǎng)度的視頻,同時(shí)也緩解了RoPE周期性與多頭注意力交互導(dǎo)致的重復(fù)運(yùn)動(dòng)問(wèn)題。
4.2 首幀錨點(diǎn):抑制色彩漂移
通過(guò)對(duì)正常視頻與漂移視頻的統(tǒng)計(jì)指標(biāo)(飽和度、美學(xué)分?jǐn)?shù)、RGB均值/方差)隨時(shí)間變化的曲線分析(如圖6所示),論文發(fā)現(xiàn)漂移視頻會(huì)在某個(gè)時(shí)刻發(fā)生統(tǒng)計(jì)特性的突然偏移。基于此,Helios在訓(xùn)練和推理時(shí),始終將視頻的第一幀保留在歷史上下文 X_Hist 中。這一“首幀錨點(diǎn)”作為一個(gè)全局視覺(jué)參照,有效地約束了后續(xù)生成內(nèi)容的分布,防止色彩等整體風(fēng)格隨時(shí)間發(fā)生劇烈漂移。
![]()
4.3 幀感知破壞:抵抗修復(fù)漂移
修復(fù)漂移指的是模型在推理時(shí),以其自身生成的、帶有瑕疵的輸出作為歷史條件,導(dǎo)致誤差累積。為此,Helios在訓(xùn)練階段引入了幀感知破壞,模擬推理時(shí)可能遇到的劣質(zhì)歷史幀。對(duì)于每一幀歷史,隨機(jī)施加曝光調(diào)整、加噪、降采樣后上采樣等擾動(dòng),強(qiáng)迫模型學(xué)習(xí)對(duì)不完美歷史輸入的魯棒性,從而在推理時(shí)能更好地應(yīng)對(duì)自回歸生成中的誤差累積。
05.
實(shí)時(shí)生成:深度壓縮流
實(shí)現(xiàn)實(shí)時(shí)的關(guān)鍵在于“降本增效”。Helios從兩個(gè)層面進(jìn)行了深度壓縮。
(一)從令牌視角壓縮:減少計(jì)算量
5.1.1 多項(xiàng)記憶塊化:壓縮歷史上下文
并非所有歷史幀都對(duì)預(yù)測(cè)未來(lái)同等重要。近距離歷史幀對(duì)局部運(yùn)動(dòng)至關(guān)重要,而遠(yuǎn)距離歷史幀主要提供全局上下文。基于此,Helios采用分層窗口,將 X_Hist 分為短期、中期、長(zhǎng)期三部分,并分別使用不同尺寸的卷積核進(jìn)行塊化處理。距離越遠(yuǎn),壓縮比率越大。如圖7所示,這種設(shè)計(jì)在固定令牌預(yù)算下,顯著擴(kuò)展了模型能“看到”的歷史范圍,大幅減少了參與注意力計(jì)算的歷史令牌數(shù)量。
![]()
5.1.2 金字塔統(tǒng)一預(yù)測(cè)校正器:壓縮噪聲上下文
受到“早期采樣步驟主導(dǎo)全局結(jié)構(gòu),后期步驟精修細(xì)節(jié)”的啟發(fā),Helios提出了金字塔式采樣策略。如圖8所示,去噪過(guò)程被劃分為多個(gè)階段,每個(gè)階段在不同的空間分辨率上進(jìn)行:
![]()
低分辨率階段:關(guān)注效率,快速確定全局布局、色彩等。
中分辨率階段:平衡質(zhì)量與效率。
高分辨率階段:專注質(zhì)量,精細(xì)雕琢細(xì)節(jié)。
模型學(xué)習(xí)跨尺度的速度場(chǎng),并采用統(tǒng)一預(yù)測(cè)校正器來(lái)跨階段協(xié)調(diào)。這種多尺度處理使總計(jì)算量從 O(HW N) 降至接近 O(HW N/K),其中 K 是階段數(shù)。在實(shí)現(xiàn)相同畫(huà)質(zhì)的前提下,計(jì)算量大幅降低。
(二)從步數(shù)視角壓縮:減少采樣步驟
要將一個(gè)需要50步采樣的擴(kuò)散模型加速到幾步,蒸餾是關(guān)鍵。Helios提出了對(duì)抗分層蒸餾,在分布匹配蒸餾(DMD)框架上進(jìn)行了多項(xiàng)改進(jìn)(如圖9所示):
![]()
純教師強(qiáng)迫:使用高質(zhì)量的Helios-Base模型作為教師,且在蒸餾訓(xùn)練時(shí),歷史上下文完全由真實(shí)的視頻幀提供(而非像其他方法那樣使用模型自回滾生成的幀),避免了高昂的“訓(xùn)練即推理”回滾計(jì)算,極大提升了訓(xùn)練效率。
分階段反向模擬:將反向采樣過(guò)程也分解為與金字塔采樣對(duì)應(yīng)的多個(gè)階段,與分層壓縮的推理流程對(duì)齊。
由粗到精的學(xué)習(xí)策略:通過(guò)OD E初始化和動(dòng)態(tài)重加噪等課程學(xué)習(xí)技巧,穩(wěn)定分層蒸餾的優(yōu)化過(guò)程。
對(duì)抗后訓(xùn)練:在蒸餾之后,加入一個(gè)基于真實(shí)數(shù)據(jù)的GAN損失,進(jìn)一步突破教師模型的性能上限,提升生成質(zhì)量。
最終,Helios將采樣步驟從50步壓縮到了僅需3步,且無(wú)需分類器自由引導(dǎo)(CFG),進(jìn)一步提速。
06.
基礎(chǔ)設(shè)施優(yōu)化與實(shí)驗(yàn)驗(yàn)證
6.1 基礎(chǔ)設(shè)施優(yōu)化為了在有限的內(nèi)存資源(單張H100 80GB)上訓(xùn)練和推理這個(gè)龐大的模型,論文還介紹了一系列底層優(yōu)化:
分片EMA:將指數(shù)移動(dòng)平均參數(shù)分片存儲(chǔ)在多卡上,節(jié)省內(nèi)存。
異步顯存釋放:在蒸餾訓(xùn)練中,按需加載和卸載生成器、評(píng)分器等模型,通過(guò)流水線掩蓋數(shù)據(jù)傳輸開(kāi)銷。
緩存梯度用于GAN:針對(duì)GAN判別器的訓(xùn)練,通過(guò)緩存梯度來(lái)解耦反向傳播,提前釋放中間激活值,降低峰值內(nèi)存占用。
Flash內(nèi)核優(yōu)化:實(shí)現(xiàn)了高性能的LayerNorm/RMSNorm和旋轉(zhuǎn)位置編碼的Triton內(nèi)核,減少了內(nèi)存訪問(wèn),提升了計(jì)算吞吐。
6.2 實(shí)驗(yàn)結(jié)果論文構(gòu)建了一個(gè)名為 HeliosBench 的全新基準(zhǔn),包含240個(gè)提示詞,覆蓋極短到長(zhǎng)四個(gè)時(shí)長(zhǎng)等級(jí)(81, 240, 720, 1440幀)。實(shí)驗(yàn)結(jié)果表明:
速度與性能:如圖1和圖2所示,在單張H100上,Helios(蒸餾版)的推理速度遠(yuǎn)超同級(jí)別的模型(如Wan2.1 14B),甚至快于一些經(jīng)過(guò)蒸餾的1.3B小模型(如某些實(shí)時(shí)生成方案)。同時(shí),在短、長(zhǎng)視頻生成任務(wù)上,其質(zhì)量評(píng)分均顯著優(yōu)于現(xiàn)有的蒸餾模型,與強(qiáng)大的基礎(chǔ)模型性能相當(dāng)。
![]()
長(zhǎng)視頻質(zhì)量:如圖3的案例所示,Helios能夠生成連貫、高質(zhì)量、長(zhǎng)達(dá)1440幀(約48秒)的長(zhǎng)視頻,細(xì)節(jié)豐富,運(yùn)動(dòng)自然,無(wú)明顯漂移。
![]()
消融實(shí)驗(yàn):論文通過(guò)詳盡的消融研究,驗(yàn)證了所提出的統(tǒng)一歷史注入、抗漂移技術(shù)、深度壓縮流等各個(gè)模塊的有效性和必要性。
07.
總結(jié)與展望
Helios的工作為視頻生成領(lǐng)域帶來(lái)了一個(gè)兼具實(shí)用性與研究?jī)r(jià)值的范式。它首次證明了一個(gè)140億參數(shù)的大模型,完全可以在單張GPU上實(shí)現(xiàn)實(shí)時(shí)、長(zhǎng)時(shí)、高質(zhì)量的視頻生成。其技術(shù)創(chuàng)新是系統(tǒng)性的:
在架構(gòu)上,提出了統(tǒng)一歷史注入框架,優(yōu)雅地統(tǒng)一了T2V/I2V/V2V任務(wù)。
在訓(xùn)練上,揭示了漂移的本質(zhì)并提供了輕量級(jí)的解決方案,避免了對(duì)長(zhǎng)視頻數(shù)據(jù)的依賴。
在效率上,通過(guò)深度壓縮流和對(duì)抗分層蒸餾,實(shí)現(xiàn)了數(shù)量級(jí)的速度提升。
在工程上,通過(guò)一系列內(nèi)存與計(jì)算優(yōu)化,讓大模型的訓(xùn)練與部署變得可行。
Helios團(tuán)隊(duì)開(kāi)源代碼、基礎(chǔ)模型和蒸餾模型,這將極大地推動(dòng)社區(qū)在實(shí)時(shí)長(zhǎng)視頻生成方向的探索。這項(xiàng)工作不僅為游戲、影視、交互式內(nèi)容創(chuàng)作等應(yīng)用打開(kāi)了新的想象空間,也為構(gòu)建更高效的“世界模擬器”奠定了重要的技術(shù)基礎(chǔ)。
----- END -----
wisemodel相關(guān):
系列模型:
![]()
關(guān)于wisemodel更多
![]()
1
歡迎持續(xù)關(guān)注和支持
開(kāi)源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開(kāi)源社區(qū)的志愿者計(jì)劃和開(kāi)源共創(chuàng)計(jì)劃。期待更多開(kāi)發(fā)者將開(kāi)源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開(kāi)放的AI開(kāi)源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開(kāi)源社區(qū)動(dòng)態(tài)。
2
歡迎加盟wisemodel開(kāi)源社區(qū)
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開(kāi)源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開(kāi)源社區(qū)
始智AI wisemodel.cn開(kāi)源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書(shū)長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開(kāi)放的AI開(kāi)源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開(kāi)源社區(qū),匯聚主要AI開(kāi)源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開(kāi)發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開(kāi)源創(chuàng)新生態(tài)。
向上滑動(dòng)查看
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.