337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

創智劉鵬飛、Sand.ai曹越,兩大AI青年學者團隊聯手開源音視頻模型

0
分享至



機器之心編輯部

開源多模態生成領域,迎來架構級的底層突破。

視頻生成已成為當前生成式 AI 最前沿的方向,但在音視頻聯合同步生成領域,開源界仍面臨三重局限:

  • 音視頻不同步:視頻和音頻往往語義對齊精度不足。
  • 架構設計復雜:現有方案要么將音頻視為從屬信號,要么通過復制骨干網絡來處理音頻,參數成本翻倍且推理優化困難。
  • 生成速度慢:現有的音視頻聯合生成模型往往因為模型架構設計復雜、難以充分優化,從而導致生成速度較慢,難以滿足交互式場景的需求。

今日,由上海創智學院(SII)生成式人工智能研究實驗室(GAIR)Sand.ai聯合研發的daVinci-MagiHuman正式開源發布,打破了開源界的這三重局限。

作為演繹級人像音視頻的開源基座模型,daVinci-MagiHuman 以 150 億參數的單流 Transformer 為核心,實現了文本、視頻、音頻在統一骨干網絡下的聯合建模,徹底告別了跨注意力和模態專屬分支。



  • 代碼倉庫:https://github.com/GAIR-NLP/daVinci-MagiHuman
  • 模型權重:https://huggingface.co/GAIR/daVinci-MagiHuman
  • 在線 Demo 體驗:https://huggingface.co/spaces/SII-GAIR/daVinci-MagiHuman

研發團隊介紹

這一成果由上海創智學院(SII)GAIR 實驗室 與 Sand.ai 共同完成。

上海創智學院是由頂尖大學、頭部企業和科研機構聯合建設的新型人才培養機構;其 GAIR 實驗室由劉鵬飛博士領導,聚焦生成式人工智能的前沿研究,涵蓋多模態視頻基座模型、文本大模型預訓練及智能體構建等方向。在多模態世界模型方面,實驗室已展開了系統性探索:從開源首個原生無擴散的多模態模型 Anole,到提出以生成圖像進行思考的新范式 Thinking with Generated Images,再到面向實時交互場景的 LiveTalk,以及面向數字世界理解與模擬的數字基因工作,逐步構建起從多模態生成、視覺推理到實時交互的完整研究鏈條。近期,該實驗室已產出 daVinci-MagiHuman、Data Darwinism、daVinci-Agency、daVinci-Dev 等一系列代表性工作。



Sand.ai 則是由馬爾獎得主曹越博士所創立,專注于開發視頻生成大模型,并以推動通用人工智能(AGI)為目標。先后發布全球首個自回歸視頻生成模型 Magi-1,以及主打「AI 演員」表現力的 GAGA-1 模型,在物理規則連貫性和原生音畫同步等領域都取得了突破性成果。

演繹級人像音視頻的開源基座模型

daVinci-MagiHuman 是音視頻聯合生成的開源基座模型。與許多依賴多流結構、跨注意力模塊或模態專用融合分支的方案不同,daVinci-MagiHuman 采用了更為簡潔的單流 Transformer 架構,以 150 億參數的統一骨干網絡聯合建模文本、視頻與音頻三種模態,徹底告別跨注意力和模態專屬分支。這一設計不僅降低了系統復雜度,也讓訓練與推理優化更加直接、統一。

在能力上,daVinci-MagiHuman 尤其擅長以人物為中心的生成任務,能夠生成富有表現力的面部表情與自然語音,并實現精確的音視頻同步,覆蓋語音與口型協調、表情驅動、動作表現等場景。同時,模型具備較強的多語言泛化能力,支持中文(普通話與粵語)、英文、日文、韓文、德文、法文等多種語言的音視頻生成。

在推理效率方面,daVinci-MagiHuman 結合單流骨干網絡、隱空間超分辨率與 Turbo VAE 解碼器,在單張 H100 上僅需 2 秒即可生成 5 秒 256p 視頻。在與 LTX-2.3、Ovi 1.1 的全面對比中,daVinci-MagiHuman 在成對人工評測中取得了70.5%的綜合勝率,在客觀基準上同樣展現出領先表現。

核心技術揭秘:單流 Transformer 統管所有模態



為了解決上述挑戰,daVinci-MagiHuman 選擇了一條更直接的路線:把文本、視頻、音頻統一放入同一個單流 Transformer 去噪網絡中,以純自注意力完成聯合建模。在這一基礎上,模型進一步采用了幾項關鍵設計:

  • Sandwich 式主干網絡:在單流 Transformer 去噪網絡中,少數輸入層和輸出層保留模態相關參數化,主要的中間層主干網絡共享參數,在模態特化與深層融合之間取得平衡。
  • 無顯式 timestep 條件注入:模型不再單獨引入 timestep 條件,而是直接從當前噪聲隱變量中推斷去噪狀態。
  • Attention-Head 門控:為了提升訓練時的數值穩定性和提升 attention 的表達能力,研發團隊進一步在每個 attention head 的輸出引入了門控機制。
  • 統一條件接口:文本、參考音頻、參考視覺條件等都通過統一接口進入同一主干網絡,而不是為不同任務單獨設計融合結構。

面向效率的四層優化

除了去噪網絡本身的先進設計,daVinci-MagiHuman 還圍繞推理效率進行了系統級優化。

1.隱空間超分

為了避免從頭直接生成高分辨率視頻帶來的巨大開銷,研發團隊采用兩階段流水線:底模先在較低分辨率生成音視頻隱變量,再通過隱空間超分對視頻結果進行細化。整個超分過程直接在隱空間(latent space) 中完成,通過三線性插值、重新加噪和少量額外去噪步驟完成高分辨率細化,效果更好的同時避免額外的 VAE decode/encode 開銷。

值得一提的是,這一階段雖然主要服務于視頻細化,但音頻隱變量也會繼續作為輸入進入超分模型,并與視頻一起在同一主干中聯合建模。這種設計在底模分辨率較低、口型細節容易偏差的情況下尤其重要,有助于保持更好的唇形同步效果。

2.Turbo VAE Decoder

在視頻編解碼階段,模型保留 Wan2.2 VAE 作為編碼器,但在推理中使用更輕量的 Turbo VAE 解碼器替換原始解碼器,以降低視頻解碼延遲。由于解碼位于底模生成和超分流水線的關鍵路徑上,這一優化對整體推理速度非常重要。

3.全圖編譯優化

研發團隊進一步將自研的全圖 PyTorch 編譯器 MagiCompiler 集成到推理棧中。通過跨層算子融合、減少分布式通信開銷等方式,它能夠進一步提升推理吞吐與執行效率,并在 H100 上帶來了約 1.2 倍的加速。

4.模型蒸餾

研發團隊還使用 DMD-2 技術對去噪網絡進行蒸餾,從而實現了在推理階段僅去噪 8 步就可以獲得良好的音視頻生成效果。

性能實測:全面對標開源 SOTA

先看實測效果:













研發團隊針對 LTX-2.3、Ovi 和 MoVA 等最具代表性的開源模型進行了系統性測試。

主觀評測:人工盲評

研發團隊構建了 100 條樣本的內部評測數據集,覆蓋圖文生音視頻任務,由評審員從多個維度對各模型的生成結果進行盲評打分。



客觀評測:VideoScore2 基準和 TalkVid-Bench 對比

VideoScore2 主要用來評測視頻生成質量,其采用的指標包括視頻生成質量(Visual Quality)、視頻 - 文本一致性 (Text Alignment) 和物理一致性(Physical Consistency)。TalkVid-Bench 則主要用來衡量音頻生成質量,其指標主要用詞錯誤率(Word Error Rate, WER) 來衡量。 表 2 展示了客觀指標的評測結果,daVinci-MagiHuman 在視覺質量、視頻 - 文本一致性都領先于 LTX2.3,在物理一致性上與 LTX2.3 大致相當,優于 OVI 1.1。在音頻質量上,daVinci-MagiHuman 則遠優于 LTX2.3 與 OVI 1.1。



結語與未來展望

此次 daVinci-MagiHuman 的模型棧完整開源,包括生成模型、超分模型以及推理代碼。這一發布有望能夠為開源社區提供一個更簡單、更可擴展、也更易于優化的音視頻生成基礎系統,持續降低音畫同出大模型的開發與部署門檻,為 AI 社區貢獻真正 “開箱即用” 的性能紅利。

文中視頻鏈接:https://mp.weixin.qq.com/s/4t9H829uYt6QQOSK8oXlqg

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
剿匪天王立奇功本是上將才,授銜僅大校,毛主席震怒稱不妥

剿匪天王立奇功本是上將才,授銜僅大校,毛主席震怒稱不妥

磊子講史
2026-03-19 16:17:42
我在小城市,一個人做電商,半年掙300萬

我在小城市,一個人做電商,半年掙300萬

南風窗
2026-03-26 10:07:51
這4種魚,可能含有甲醛和重金屬,建議:還是少吃比較好!

這4種魚,可能含有甲醛和重金屬,建議:還是少吃比較好!

阿龍美食記
2026-03-24 21:52:23
炸屏跑圈!51歲林志玲跑馬拉松,生圖狀態封神,網友:滿50減30!

炸屏跑圈!51歲林志玲跑馬拉松,生圖狀態封神,網友:滿50減30!

馬拉松跑步健身
2026-03-26 22:09:16
1986年韓先楚拒絕葬在八寶山,他對陳云說:那里有我不愿見到的人

1986年韓先楚拒絕葬在八寶山,他對陳云說:那里有我不愿見到的人

百年歷史老號
2026-03-25 18:27:41
張雪峰:把陜西37所公辦本科分五檔!你家孩子讀哪一檔(珍藏版)

張雪峰:把陜西37所公辦本科分五檔!你家孩子讀哪一檔(珍藏版)

熱心市民小黃
2026-03-27 07:10:00
破防!中國油輪硬闖霍爾木茲海峽,伊朗全程護航,看完太提氣

破防!中國油輪硬闖霍爾木茲海峽,伊朗全程護航,看完太提氣

戧詞奪理
2026-03-25 10:53:15
廣東今日早報!球迷熱議楊鳴替杜鋒,徐杰深夜發聲,崔永熙回首發

廣東今日早報!球迷熱議楊鳴替杜鋒,徐杰深夜發聲,崔永熙回首發

多特體育說
2026-03-27 09:27:26
7旬男子陪老伴住院,醫生看了他一眼發現其面部有猝死先兆,將其從死亡邊緣拉回

7旬男子陪老伴住院,醫生看了他一眼發現其面部有猝死先兆,將其從死亡邊緣拉回

觀威海
2026-03-26 09:55:04
日本代表缺席,中方終于明確回應,高市算得很準:中國不會原諒她

日本代表缺席,中方終于明確回應,高市算得很準:中國不會原諒她

云鵬敘事
2026-03-27 10:14:00
第二名是最大的輸家!威少被約基奇搞得不敢退役!真相是這樣么?

第二名是最大的輸家!威少被約基奇搞得不敢退役!真相是這樣么?

五姑娘臺球
2026-03-26 09:45:52
網曝張雪峰立有遺囑!巨額遺產和股份前妻女兒妻子三人這么分:網友吵瘋了

網曝張雪峰立有遺囑!巨額遺產和股份前妻女兒妻子三人這么分:網友吵瘋了

不二表姐
2026-03-26 23:45:52
我去!內娛最大的性丑聞,拍出來了

我去!內娛最大的性丑聞,拍出來了

皮蛋兒電影
2026-03-04 14:39:25
美伊打23天,美方看清楚一件事,貝森特通告全球:已無法阻止中國

美伊打23天,美方看清楚一件事,貝森特通告全球:已無法阻止中國

跳跳歷史
2026-03-27 11:15:31
美國的大炮一響,伊朗賣給中國的石油,為什么反而比以前更多了?

美國的大炮一響,伊朗賣給中國的石油,為什么反而比以前更多了?

錯過美好
2026-03-27 04:00:54
深圳雙雄互撕!大疆一紙訴狀,影石一天沒了50億

深圳雙雄互撕!大疆一紙訴狀,影石一天沒了50億

野馬財經
2026-03-26 16:39:35
安徽一女護士回娘家路上失蹤,15年后給哥哥托夢:我在院子里

安徽一女護士回娘家路上失蹤,15年后給哥哥托夢:我在院子里

清茶淺談
2025-02-27 14:55:55
79元太火!小米磁吸玩偶賣斷貨 官方承諾加快生產

79元太火!小米磁吸玩偶賣斷貨 官方承諾加快生產

快科技
2026-03-26 07:09:03
曝張雪峰倒下30分鐘后才被發現,飲食習慣糟糕,一口氣吃8根雪糕

曝張雪峰倒下30分鐘后才被發現,飲食習慣糟糕,一口氣吃8根雪糕

古希臘掌管松餅的神
2026-03-25 11:08:46
2-0!意大利附加賽過首關 距世界杯僅差1場 8000萬巨星凌空斬救主

2-0!意大利附加賽過首關 距世界杯僅差1場 8000萬巨星凌空斬救主

我愛英超
2026-03-27 05:48:05
2026-03-27 12:12:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12612文章數 142595關注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產力

頭條要聞

男孩被搶走17年后找到生母 對"命好"的弟弟感情微妙

頭條要聞

男孩被搶走17年后找到生母 對"命好"的弟弟感情微妙

體育要聞

近29戰23勝!這支黃蜂有多強?

娛樂要聞

張雪峰靈堂內景曝光,四周擺滿了鮮花

財經要聞

很反常!油價向上,黃金向下

汽車要聞

與眾08,金標大眾不能輸的一戰

態度原創

健康
游戲
本地
旅游
公開課

轉頭就暈的耳石癥,能開車上班嗎?

緊急救火!《博德3》推送百兆熱補丁 修復炸檔與崩潰

本地新聞

救命,這只醬板鴨已經在我手機復仇了一萬遍

旅游要聞

“周末不忙,來趟宜良” ,春光爛漫,一起出門踏青去~

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版