網易首頁 > 網易號 > 正文申請入駐

工業級Zero-Shot新突破，YingMusic-SVC攻克和聲干擾

2025-12-01 17:37:04　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在，歡迎加入共同成長。

近年來，隨著 “AI 孫燕姿” 等歌聲作品在社交媒體廣泛傳播，以及 Suno、Udio 等生成式音樂模型在大眾用戶中的普及，音樂生成與歌聲轉換（Singing Voice Conversion, SVC）正逐漸成為生成式 AI 的重要研究方向。與此同時，從 So-VITS-SVC 到 RVC 等開源項目的快速迭代，使得 SVC 的門檻不斷降低，也推動了相關技術在創作者與開發者群體中的普及。

然而，與社區中常見的演示樣例相比，Zero-Shot（零樣本）歌聲轉換在真實應用場景下仍面臨巨大的技術挑戰。現有大多數 SOTA 模型通常在干凈、無伴奏的人聲數據上訓練與評測，而真實世界中的輸入卻往往是包含伴奏、和聲、混響與各種混音效果的整首歌曲。

即便經過聲源分離處理，得到的“人聲軌道”仍可能殘留背景諧波、疊加人聲甚至分離偽影，從而進一步導致 F0（基頻）提取不穩定。上述因素使得模型在轉換過程中容易出現音色不穩定、跑調、破音甚至整體崩壞，嚴重限制了 Zero-Shot SVC 技術在大規模、工業級場景中的可用性。

針對這一關鍵問題，來自巨人網絡 AI Lab、清華大學 SATLab、倫敦大學學院（UCL）與華東理工大學的研究團隊提出了 YingMusic-SVC —— 一個面向真實應用需求、具備高魯棒性的 Zero-Shot SVC 框架。

該工作在模型層面引入了多項面向歌聲的歸納偏置（inductive biases），并首次將 Flow-GRPO 強化學習方法應用于基于 DiT 的歌聲轉換模型，使模型能夠在保持音色一致性與清晰度的基礎上，直接優化聽感與音樂美學等高層屬性。相關模型、代碼和數據集已開源已上線始智AI-wisemodel開源社區，同時在該模型頁面支持部署在線體驗，歡迎使用。

相關地址

https://wisemodel.cn/organization/Giant_AILab

圖 1 現有開源 SVC 模型與 YingMusic-SVC 模型的對比

實驗結果顯示，YingMusic-SVC 在伴奏泄漏、和聲干擾等復雜混音條件下仍保持穩定表現，并在多項指標上顯著超越現有開源 SOTA 模型，為 Zero-Shot SVC 的工程落地提供了實際可能性。。目前，該團隊計劃將完整的工業級 SVC 流程（包含推理代碼、模型權重、benchmark測試集及優化后的分離模型）全開源，推動 Zero-Shot SVC 技術在真實場景下的研究與應用。

Demo展示：

注：原曲輸入（帶有和聲、混響等音樂后期制作）

注：seedvc demo，模型在遇到和聲音軌時會有破音。

注：RVC demo，模型同樣在遇到和聲音軌時會有破音。

注：YingMusic-SVC demo，模型對和聲音軌等有著較好的魯棒性。

01.

核心痛點與解決方案

歌聲轉換（SVC）旨在將源歌手的音色轉換為目標歌手，同時保留原始的音樂內容與旋律。盡管 RVC 等開源框架已能實現逼真的轉換效果，但在面向真實工業場景時，特別是 Zero-Shot 場景下，仍存在巨大的技術鴻溝：

非理想輸入源的魯棒性差：現有系統大多在干凈的干聲上進行評估。但在實際業務中，輸入往往是包含伴奏的完整歌曲。即使經過前置的人聲分離，分離出的軌道仍常伴有和聲殘留（Harmony Bleed）、混響或回聲。將這種“不完美”的人聲作為輸入，會導致轉換結果出現明顯的偽影或雜音。

歌唱特有屬性建模不足：大多數 Zero-Shot SVC 模型僅簡單地將語音轉換（VC）架構加上 F0 條件控制，缺乏針對“歌唱”的歸納偏置設計。歌聲相比語音擁有更大的動態范圍（Dynamics）和更豐富的高頻諧波細節，通用模型往往難以捕捉這些特征，導致高音沉悶或細節丟失。

聽感與優化目標的錯位：傳統的監督學習損失函數（如 MSE）難以直接優化自然度、音色一致性和音樂美感等高層感知屬性。這導致模型生成的音頻雖然參數指標尚可，但主觀聽感仍有差距。

圖 2：YingMusic-SVC的模型架構及訓練方法圖

針對上述挑戰，團隊提出了 YingMusic-SVC，這是一個面向工業級應用的魯棒 Zero-Shot SVC 系統。該系統基于 DiT 架構進行了面向歌聲建模的優化設計，采用三階段的訓練方式，并首次將強化學習（RL）應用于DiT架構的 SVC 的后訓練階段。

1、歌唱特異性的模型增強（Singing-Specific Enhancements）

為更精準地建模歌唱特征，優化歌聲中高頻細節與音色動態表現，團隊做了多項改進：

基于 RVC 的音色隨機化（RVC Timbre Shifter）：不同于直接使用原始音頻，系統引入了一個在 120 人歌聲數據上預訓練的 RVC 模塊，將輸入歌聲轉換為隨機音色后再進行內容編碼。這一步驟有效去除了源歌手的音色殘留，使內容特征更加純凈，從而提升了轉換后的咬字準確性。

F0 感知的動態音色適配（F0-Aware Adaptive Timbre）：歌聲的音質會隨音高變化（如低音胸腔共鳴 vs 高音頭腔共鳴）。模型引入了 F0 感知的音色適配模塊，根據當前音高動態調整音色 Embedding，從而更真實地還原歌手在不同音域下的表現力。

能量平衡流匹配損失（Energy-Balanced Flow Matching Loss）：針對歌聲高頻能量低、易被損失函數忽略的問題，設計了頻率加權的損失函數，賦予高頻細節更高的權重，顯著提升了高頻諧波和呼吸聲的還原度。

圖 3：YingMusic-SVC的關鍵優化點

2、三階段訓練：

先以 CPT (Continuous Pre-training) 適配并穩定歌唱特異模塊，其后在精選與增強語料上進行 SFT (Supervised Fine-tuning)以提升魯棒性，最后以 Flow-GRPO 的多目標獎勵開展 RL 后訓練，直接優化可懂度、音色與美學感知。下面依次展開：

繼續預訓練（CPT）

模型訓練從 SeedVC 的 checkpoint 出發，利用混合的說話與歌聲數據進行持續預訓練，以逐步適配并穩定新增的歌唱特異性模塊。這一階段旨在讓模型在保持語音建模能力的同時，更好地遷移至歌唱場景，為后續的監督微調與強化學習奠定穩健基礎。

魯棒性監督微調（Robust SFT）

為了應對真實場景中的和聲殘留和 F0 提取錯誤，團隊構建了魯棒微調策略。通過在訓練中引入隨機 F0 擾動（模擬抖動、滑音誤差）和額外的分軌和聲數據，強制模型學習從受污染的輸入中重建干凈歌聲流（flow），從而大幅提升了對工業級輸入的容錯率。

基于 Flow-GRPO 的 RL 后訓練

這是 Flow-GRPO 算法在 SVC 領域的首次應用。團隊基于歌聲轉換任務的多維特性，兼顧語義可懂度、音色一致性與主觀聽感三方面指標，設計了一個多目標獎勵函數，包含：

智能度獎勵（Intelligibility）：基于 ASR 模型的詞錯誤率（WER）優化咬字清晰度。

音色相似度獎勵（Timbre Similarity）：基于聲紋模型確保目標音色的高保真還原。

美學質量獎勵（Aesthetic Quality）：引入 Audiobox Aesthetics 模型優化聽感美譽度。通過 RL，模型學會了如何在保證還原度的同時，生成更符合人類審美的歌聲。

02.

實驗結果

研究團隊構建了一個覆蓋多種真實場景、具有不同難度等級的測試集，并計劃向社區完全開源。其中包括：

GT Leading：干凈且無伴唱的獨立主唱軌道，用于評估模型的上限表現；

Mix Vocal：將主唱與和聲混合，專門模擬伴奏分離不徹底、殘留和聲干擾的真實應用場景；

Ours Leading：使用團隊自研的分離模型得到的主唱軌，用于測試實際生產鏈路中的魯棒性。

在對比實驗中，YingMusic-SVC 在各項指標上均超越了目前最強的開源基線 Seed-VC 和 FreeSVC 。

抗干擾能力強：在最具挑戰性的 Mix Vocal 設置下，Seed-VC 的 F0 相關性（LogF0PCC）下降到了 84.02%，而 YingMusic-SVC 依然保持在 86.47%，且 CMOS（比較平均意見分）達到了 3.31 的高分，遠超基線的 2.93。

聽感更佳：得益于 RL 的引入，YingMusic-SVC 在三種評測設置下的美學評分（CE/CU）均取得了顯著優勢，證明了 GRPO 在提升生成質量方面的有效性。

消融實驗證明：去掉 RVC Timbre Shifter 或 RL 模塊后，各項指標均有明顯下降，驗證了每個模塊的必要性。

針對三階段的消融實驗證明了 Flow-GRPO 模塊的有效性，將其去除后，模型的 CMOS 與美學評分（CE/CU）有明顯下降。此外，研究團隊還對強化學習的關鍵超參數進行了深度分析，具體可見圖 3，揭示了 RL 在 SVC 任務中的敏感性：

圖 4 GRPO 消融實驗圖

03.

未來展望

YingMusic-SVC = 歌聲專屬結構優化 + 工業級魯棒性增強 + Flow-GRPO優化。它解決的不僅是“能不能轉”的問題，而是真實復雜場景下“好不好用”的問題。

YingMusic-SVC 為零樣本歌聲轉換系統提供了一條從理論建模到工業實踐的系統性路徑，成功證明了通過系統化的數據構建與訓練方法，可以構建出能在真實歌曲復雜場景中穩定表現的 SVC 系統。通過歌聲歸納偏置、魯棒訓練策略以及強化學習的巧妙結合，模型在音色一致性、歌詞可懂度、音高表現與整體自然度上，均達到了當前開源系統中的頂尖水平。憑借其在和聲干擾等真實復雜場景中的卓越魯棒性，YingMusic-SVC已具備直接落地部署的能力，為Zero-Shot svc提供了扎實的技術能力。

研究團隊表示，未來將進一步探索跨語言歌聲風格遷移、更細粒度的獎勵建模以及實時推理優化等方向，并持續推動歌聲轉換技術在 AIGC 創作、虛擬角色、音樂教育與用戶生成內容等領域中的普惠化應用落地。

同時，巨人網絡 AI Lab 本次聯合清華大學與西北工業大學推出三項研究成果：

除了YingMusic-SVC 外，wisemodel社區也將陸續推出YingVideo-MV、與 YingMusic-Singer。

04.

在線體驗/API

YingMusic-SVC模型頁面支持部署在線體驗，選中該鏡像，點擊在線部署—部署在線體驗。進入后，根據需要相應的信息進行選擇，點擊“提交訂單”按鈕，體驗進入后臺的啟動階段。大概等待1分鐘左右，體驗進入運行中的狀態。

公開狀態的在線體驗可以在wisemodel社區-體驗與API”的頁面上點擊相應的體驗，進入體驗的頁面；私有狀態的在線體驗需要前往“用戶中心-我的資源-體驗”進入體驗的頁面。

巨人網絡 AI Lab 成立于 2022 年，是隸屬于巨人網絡的人工智能技術落地與研究機構。今年以來，團隊多項人工智能研究成果入選ACM MM、ICASSP、Interspeech等國際頂級學術會議，覆蓋多模態生成、音視頻合成及多智能體等技術方向。

----- END -----

wisemodel相關：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發，熟悉K8S、模型訓練和推理等技術，以及熟悉開發者生態運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.