337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Soul App開源實時數字人生成模型SoulX-FlashTalk

0
分享至

近期,Soul App AI團隊(Soul AI Lab)已開源實時數字人生成模型SoulX-FlashTalk 。這是首個能夠實現0.87s亞秒級超低延時、32fps高幀率,并支持超長視頻穩定生成的14B數字人模型。

在持續建設AI能力的過程中,Soul團隊始終致力于通過技術創新實現更沉浸、多元的交互體驗。此次開源新模型,除了在速度、效果、延遲和保真度上表現出色,更重要的是,為行業提供了切實可應用的業務解決方案,推動大參數量實時生成式數字人邁入可具體商用落地階段。



Project Page:

Technical Report:

Source Code: https://github.com/Soul-AILab/SoulX-FlashTalk

HuggingFace:

SoulX-FlashTalk亮點:

四大關鍵指標,重塑實時互動體驗

0.87s 亞秒級延時,即時交互

在實時視頻交互中,延遲是決定用戶體驗的核心。SoulX-FlashTalk 憑借全棧加速引擎的極致優化,成功將首幀視頻輸出的延時降至0.87s亞秒級。

  • “零延遲”即時反饋: 首次讓 14B 級大模型數字人具備了即時反應能力,徹底消除了傳統大模型生成的“滯后感”。
  • 全場景交互: 無論是視頻通話中的即時對答、直播間彈幕的秒級互動,還是智能客服的實時響應,均能實現自然、流暢的深度對話。

32fps 高幀率,重新定義“流暢”

盡管搭載了 14B 參數量的超大 DiT 模型,SoulX-FlashTalk 的推理吞吐量仍高達 32 FPS。

  • 超越行業標準:遠超直播所需的 25 FPS 實時標準,確保每一幀畫面都絲滑順暢。
  • 大模型,高性能:證明了 140 億參數大模型在經過深度加速優化后,依然可以擁有極佳的運行效率。

超長視頻穩定清晰生成,告別畫面“崩壞”

數字人視頻最怕在生成中出現人物面部不一致或顯著畫質下降的問題。SoulX-FlashTalk 憑借獨家的自糾正雙向蒸餾技術,解決了這一痛點:

  • 無感糾錯,畫質無損:引入多步回溯自糾正機制,模擬長序列生成的誤差傳播并進行實時修正,就像為 AI 裝上了“實時校準器”,主動恢復受損特征。
  • 超長視頻,穩定生成: 不同于傳統的單向依賴,SoulX-FlashTalk 完全保留了雙向注意力機制,讓每一幀生成都能同時參考過去與隱含的未來上下文,從根本上壓制身份漂移,這意味著在超長直播中,主播的口型、面部細節和背景環境將始終保持一致,不會出現模糊或變形。

全身動作交互:不只是“口型對齊”

SoulX-FlashTalk 突破了傳統數字人僅能實現面部“對口型”的局限,帶來了更加真實自然的全身肢體動態表現。

  • 全身肢體動態合成: 不同于僅對臉部進行局部重繪的方案,SoulX-FlashTalk 支持受音頻驅動的全身動作生成,產生真實自然的人體動態。
  • 高精細手部表現: 基于14B DiT的強大建模能力,系統能夠有效消除手部畸形與運動模糊,精準呈現結構清晰、紋理銳利的手部動作細節。
  • 靈動而不失穩定: 在追求大幅度動態表現力的同時,系統依然維持了極高的身份一致性(Subject-C 達 99.22),實現了動作靈活性與畫面穩定性的完美平衡。

核心方案:

雙向蒸餾+多步回溯自糾正機制

在行業中,傳統數字人生成方案大多面臨畫面生成時間長、延遲高、生成效果差、效果不穩定、保真度低等問題。

在這樣的背景下,SoulX-FlashTalk正式開源,為了平衡生成質量與推理速度,團隊采用了兩階段訓練策略:

第一階段:延遲感知時空適配 (Latency-Aware Spatiotemporal Adaptation),結合動態長寬比分桶策略進行微調,使模型適應較低的分辨率和更短的幀序列;

第二階段:自糾正雙向蒸餾 (Self-Correcting Bidirectional Distillation)。利用 DMD 框架壓縮采樣步數并移除無分類器引導(CFG),實現加速;多步回溯自糾正機制,通過 autoregressively 合成連續分塊(最多 K個chunks),顯式模擬長視頻生成的誤差傳播;隨機截斷策略,在訓練中在第 k(< K)個分塊數進行反向傳播,實現高效且無偏的顯存友好優化 。



訓練流程示意圖

同時,團隊進行實時推理加速系統優化, 針對 8-H800 節點設計的全棧加速引擎實現了亞秒級延遲 ,包括了

  • 混合序列并行 (Hybrid Sequence Parallelism):整合 Ulysses 和 Ring Attention,使單步推理速度提升約5倍算子級優化:采用針對Hopper架構優化的FlashAttention3,通過異步執行進一步減少 20% 的延遲
  • 3D VAE 并行化:引入空間切片并行解碼策略,實現VAE處理的5倍加速
  • 整鏈優化:通過 torch.compile 實現全流程圖融合與內存優化

值得注意的是,在Soul AI團隊發布的技術報告中指出,傳統的單向(Unidirectional)模型在處理全局時間結構時存在約束,容易導致時間不一致和身份漂移。因此,團隊完全保留雙向注意力機制(All-to-All 交互),使模型能同時利用過去與隱含的未來上下文,顯著提升了生成的一致性與細節質量 。



SoulX-FlashTalk推理架構流程圖

AI+實時體驗

賦能行業多元業務場景

從模型表現來看,通過在 TalkBench-Short 和 TalkBench-Long 數據集上的定量對比,展示了SoulX-FlashTalk在視覺質量、同步精度及生成速度上的全面領先:

在短視頻評測中,它以3.51的ASE和4.79的IQA刷新了視覺保真度記錄,并以1.47的Sync-C分數表現出最優的口型同步精準度;在5分鐘以上的長視頻生成中,系統憑借雙向蒸餾策略有效抑制了同步漂移,取得了1.61的Sync-C優異成績;此外,作為14B參數規模的大模型,它在長短視頻任務中均維持了32 FPS 的高吞吐量,不僅遠超25 FPS的實時性基準,更在推理效率上顯著優于行業同類主流模型。



依托模型優越的性能表現,開源后,SoulX-FlashTalk將有機會在多領域、行業實際落地,創造更多價值。例如,在電商領域打造7×24小時AI直播間,特別是,此前傳統的數字人直播長時間運行后常會出現嘴型對不上或畫質模糊的問題,而SoulX-FlashTalk可以支持全天候的流暢視頻直播,即便是在高強度的實時互動中(如回復彈幕),也能保持如同真人出鏡的高保真畫質,極大降低直播成本。

此外,在短視頻制作、AI教育、多元互動場景NPC交互、AI客服等方向,模型也提供了高質量、可落地、可接入業務系統的解決方案。

對Soul而言,SoulX-FlashTalk的發布也意味著團隊進入了開源新階段。去年10月底,Soul AI團隊開源語音合成模型SoulX-Podcast,在發布后快速登頂開源社區平臺HuggingFace TTS(Text To Speech)趨勢榜,目前該模型在GitHub上收獲了超3100星標。

接下來,在聚焦語音對話合成、視覺交互等核心交互能力的提升,為用戶帶來更加沉浸、智能且富有溫度的交互體驗的過程中,以持續推進開源工作為契機,Soul將積極與全球開發者攜手,共建生態,為推動“ AI +社交”方向前沿能力建設貢獻力量。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
73歲大爺為43歲妻子做陰莖假體手術,網友破防了:這才是真愛

73歲大爺為43歲妻子做陰莖假體手術,網友破防了:這才是真愛

魔都姐姐雜談
2026-04-02 18:52:46
王毅:中方愿同歐方保持溝通合作,推動盡早止戰,恢復地區和平

王毅:中方愿同歐方保持溝通合作,推動盡早止戰,恢復地區和平

新京報
2026-04-03 07:37:13
獨家評論:直接點名硬剛賴清德,鄭麗文四句話拆穿“臺獨”話術

獨家評論:直接點名硬剛賴清德,鄭麗文四句話拆穿“臺獨”話術

海峽導報社
2026-04-02 23:17:16
隨著費利佩戴帽+成都蓉城5-1,2026賽季中超最新積分榜出爐

隨著費利佩戴帽+成都蓉城5-1,2026賽季中超最新積分榜出爐

側身凌空斬
2026-04-03 21:44:37
登貝萊:第一個進球?這種球如果讓我射十次,可能也就進一次

登貝萊:第一個進球?這種球如果讓我射十次,可能也就進一次

懂球帝
2026-04-04 06:03:10
國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

比利
2026-01-23 12:41:53
絲襪裝還是休閑裝:我終于不再站隊了

絲襪裝還是休閑裝:我終于不再站隊了

疾跑的小蝸牛
2026-04-03 22:36:53
上海125平方米房屋僅售131萬?實為地產工作人員AI“包裝”杜撰

上海125平方米房屋僅售131萬?實為地產工作人員AI“包裝”杜撰

新京報
2026-04-03 15:45:06
神戶一小學男女教師被揭發生不雅之事  辯稱氣氛到無法自制

神戶一小學男女教師被揭發生不雅之事 辯稱氣氛到無法自制

環球趣聞分享
2026-04-01 16:27:15
曾國藩:真正拉開人與人差距的,從來不是能力,而是做好這三件事

曾國藩:真正拉開人與人差距的,從來不是能力,而是做好這三件事

千秋文化
2026-03-31 20:52:57
網購13.8元藍莓苗后選擇“僅退款”,兩天后女子收到“萬古流芳”殯葬用品,商家否認與己有關,顧客稱已報警

網購13.8元藍莓苗后選擇“僅退款”,兩天后女子收到“萬古流芳”殯葬用品,商家否認與己有關,顧客稱已報警

極目新聞
2026-04-02 20:21:31
美國突然提議停戰!美軍損失慘重出乎防長意料,特朗普緊急開會

美國突然提議停戰!美軍損失慘重出乎防長意料,特朗普緊急開會

大國之翼
2026-04-04 07:47:40
特朗普小兒子被呼吁參軍,美媒:他身高2米多,可能因此不用服役

特朗普小兒子被呼吁參軍,美媒:他身高2米多,可能因此不用服役

錯過美好
2026-04-01 06:07:23
他汀類藥物到底該吃多久?能不能停藥?告訴你實情!

他汀類藥物到底該吃多久?能不能停藥?告訴你實情!

華醫網
2026-04-02 05:40:44
白襪妹妹:純真與誘惑的完美結合

白襪妹妹:純真與誘惑的完美結合

挪威森林
2026-02-23 08:26:39
《危險關系》演員演技排名,朱顏曼滋第5,孫儷第2,第1毋庸置疑

《危險關系》演員演技排名,朱顏曼滋第5,孫儷第2,第1毋庸置疑

娛樂圈筆娛君
2026-04-03 16:32:55
湖人逆天操作!毀了本賽季!毀了東契奇!徹底完了!

湖人逆天操作!毀了本賽季!毀了東契奇!徹底完了!

大漢體育解說
2026-04-03 13:56:56
李小萌王雷豪華住宅被曝光,誰能想到王雷的煙成了最大亮點!

李小萌王雷豪華住宅被曝光,誰能想到王雷的煙成了最大亮點!

陳意小可愛
2026-04-03 09:45:24
4萬一輛的中國“小電驢”,正被歐美老錢瘋搶

4萬一輛的中國“小電驢”,正被歐美老錢瘋搶

觀察者網
2026-04-02 14:35:02
三峽大壩有可能報廢?淤泥堆積超18億噸,究竟該如何治理?

三峽大壩有可能報廢?淤泥堆積超18億噸,究竟該如何治理?

生活魔術專家
2026-04-03 19:41:37
2026-04-04 08:59:00
智能相對論 incentive-icons
智能相對論
智能和車,邊評邊測;未來和家,且品且鑒
2489文章數 2412關注度
往期回顧 全部

科技要聞

5萬輛庫存車,給了特斯拉一記重拳

頭條要聞

牛彈琴:美國經歷最糟糕24小時 伊朗發出最辛辣諷刺

頭條要聞

牛彈琴:美國經歷最糟糕24小時 伊朗發出最辛辣諷刺

體育要聞

被NBA選中20年后,他重新回到籃球場

娛樂要聞

夏克立官宣再婚當爸?否認婚內出軌

財經要聞

劉紀鵬:只盼長慢牛,鞏固4000點是關鍵

汽車要聞

你介意和遠房親戚長得很像嗎?

態度原創

手機
本地
數碼
游戲
公開課

手機要聞

OPPO Find X9 Ultra:真機偷跑!Find X9s Pro:要做小屏影像機皇

本地新聞

跟著歌聲游安徽,聽古村回響

數碼要聞

蘋果2026款AirPods Pro耳機前瞻:內置紅外攝像頭

最后“生還者”!《星鳴特攻》死亡兩年仍有玩家

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版