品玩3月16日訊,據通義實驗室官方消息,通義實驗室正式發布并開源了業界首個面向影視級復雜場景的多模態AI配音大模型——Fun-CineForge。該模型旨在攻克AI在專業影視、動畫及游戲配音領域長期面臨的核心挑戰,即如何實現語音與角色口型、情緒、音色、時間點的高度同步。
現有AI配音技術主要受限于兩大瓶頸:高質量多模態數據集稀缺,以及模型在應對鏡頭切換、人臉遮擋等復雜場景時能力不足。對此,Fun-CineForge創新性地提供了“數據-模型”一體化解決方案。在數據側,其配套的自動化生產流程CineDub能從海量影視素材中構建高質量結構化數據集,并借助大模型思維鏈將中文字錯率大幅降至0.94%。模型側的核心突破在于,首次在配音任務中引入“時間模態”,結合視覺、文本、音頻等多模態信息,使模型即使在說話人面部不可見時,也能精準控制語音的時間區間和說話人身份。
評測數據顯示,Fun-CineForge在語音自然度、字錯率、情感表達、唇形同步等多項關鍵指標上均領先于現有開源模型。它不僅優化了獨白、旁白等單人場景的配音質量,更首次實現了對雙人及多人對話場景的可靠支持,展現了強大的復雜場景適應能力。該項目已在GitHub、HuggingFace等平臺開源,為專業內容制作領域提供了創新的技術路徑。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.