337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

YingMusic-Singer突破“改詞擠字”難題,強化學習落地SVS

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動,最高可得算力券+token包380元獎勵,歡迎參與和支持!

歌聲合成(SVS)指的是給定歌詞和旋律,系統自動“唱”出一段完整的歌聲。歌聲合成在音樂制作與互動娛樂中極具潛力,但要實現真正的“任意歌詞配任意旋律”,仍然有很多工作需要做:

  • 依賴高成本強對齊數據:傳統 SVS 系統普遍依賴精確的音素級時長對齊和人工標注的 MIDI 信息,這不僅制作成本極高,限制了數據規模,也導致模型難以泛化。

  • 歌詞-旋律不匹配難題:現有模型通常只能在“固定歌詞對應固定旋律”的場景下工作。當用戶嘗試更改歌詞(尤其是字數改變)時,由于音素數量與原始旋律節拍不匹配,模型容易出現發音生硬、節奏錯位或“擠字”現象 。

  • 缺乏 Zero-shot 能力:大多數系統難以在未見過的音色或復雜的韻律結構下保持穩定,生成效果往往伴隨音質退化,且推理時仍需依賴外部 MIDI 輸入 。

針對上述痛點,巨人網絡 AI Lab、西工大 ASLP-lab聯合推出了 YingMusic-Singer,這是一套無需精確旋律標注、支持任意歌詞與旋律自由組合的 SVS 模型 ?,F已上線始智AI-wisemodel開源社區,同時支持部署在線體驗和API,歡迎使用。


模型地址

https://wisemodel.cn/models/Giant_AILab/YingMusic-Singer

01.

結構化旋律引導與GRPO強化學習


圖1:YingMusic-Singer 模型整體架構圖

1、基于DiT的無需標注的旋律引導

為了擺脫對人工強標注的依賴,同時確保歌詞發音的可理解性,團隊在原有 DiT 生成框架上引入了無需標注的旋律建模模塊,并設計了相應的弱對齊機制,其核心設計包括:

  • 在線旋律提取與聯合優化:設計了一個參數可學的旋律編碼器,直接從參考音頻中提取幀級旋律表征,并與基于 DiT 的生成模型進行端到端聯合訓練 。通過引入教師模型的蒸餾約束,確保提取的表征既包含準確的旋律語義,又能自適應下游生成任務。

  • CKA 表示層對齊約束:為了確保生成歌聲遵循參考旋律的走向,團隊引入了中心核對齊(CKA)損失 。該機制顯式地最大化旋律表征與 DiT 模型預測流(predicted flow)特征之間的相關性,使模型在優化中顯示的關注輸入特征中的旋律對齊關系,使模型可以精準復現參考音頻中的旋律結構。


圖2 :句級歌詞處理邏輯

2、句級時長建模:

傳統 SVS 系統往往難以在 不依賴精確音素標注的前提下,同時支持 靈活調整歌詞結構與長度。為解決這一限制,我們的模型基于十萬條僅帶句級時間戳的弱標注數據進行訓練,在無需精確音素對齊的情況下,仍能學習歌詞音節在旋律中的合理布局。由此,系統在“改詞”等高自由度場景中也能保持與目標旋律的穩定契合,從根本上降低了對昂貴標注和嚴格音素時長對齊的依賴。


圖 3:YingMusic-Singer GRPO 實現方式圖

3、基于 Flow-GRPO 的強化學習后訓練

這是首次將強化學習引入 基于 DiT的SVS 任務 。為了進一步提升發音清晰度與旋律效果,使模型可以自適應的權衡內容生成準確度與旋律遵循度,團隊進行了如下研究:

  • 構建多維獎勵函數:融合了內容準確度(Content Accuracy)和旋律準確性(Melody Similarity)作為獎勵信號 。

  • Flow-GRPO 策略優化:采用組相對策略優化(GRPO)算法對模型網絡進行微調 ,通過在生成空間中探索更優解,模型在保持多樣性的同時,提升了在復雜歌詞下的咬字清晰度和旋律還原度。

02.

實驗效果


為評估YingMusic-Singer在內容與旋律控制方面的性能,我們完成了零樣本歌聲合成及歌聲編輯(含結構與歌詞修改)實驗。在零樣本音色轉換任務中,模型通過目標歌詞、樂譜符號(如MIDI)和參考音頻,生成既符合目標內容與音符要求、又保留參考音色的歌聲。本模型的獨特性在于將類樂譜信息轉化為參考演唱旋律,實現從旋律到歌聲的端到端合成。

  • 實驗指標顯示,經過后訓練的 YingMusic-Singer 在多數任務中表現優異:其歌詞轉錄錯誤率(WER)最低,音高相關性(FPC)達到競爭水平。此外,在主觀評估中本模型的自然度評分更高,雖然客觀旋律相似度指標 FPC 略低于 Vevo 但仍超過80% 閾值,且 WER 顯著更低,說明其在保持旋律輪廓的同時實現了更優的內容還原。這印證了后訓練策略能有效平衡內容準確度、自然度與旋律跟隨這三個常相互制約的目標。

  • 在改變歌詞與句子結構的編輯任務中,Vevo 與本模型均保持低 WER 與高 F0 相關性,表明對于歌聲編輯而言,保持音素單元的旋律走向比嚴格遵循原始歌詞結構更為關鍵。

03.

結論

YingMusic-Singer 通過無需精確標注的旋律引導Flow-GRPO 強化學習,擺脫了傳統 SVS 技術對高成本的標注數據的依賴 。該系統在很大程度上緩解了歌詞替換中“清晰度”與“旋律死板對齊”的矛盾,在大幅降低詞錯誤率的同時保持了自然的音樂表現力。這一進步為大眾用戶提供了更自由、低門檻的音樂創作能力,推動 SVS 技術從“可用”向“好用、易用”邁出了關鍵一步。

04.

在線體驗/API

wisemodel社區—鏡像上線 了“巨人網絡AI LAB/ YingMusic-Singer ” 的鏡像 ,支持一鍵創建在線體驗或者API服務, 選中該鏡像,點擊部署在線體驗或者創建開發環境。


進入后,根據需要填寫相應的信息,點擊“提交訂單”按鈕,體驗進入后臺的啟動階段。大概等待1分鐘左右,體驗進入運行中的狀態。


公開狀態的在線體驗可以在wisemodel社區-體驗與API”的頁面上點擊相應的體驗,進入體驗的頁面;私有狀態的在線體驗需要前往“用戶中心-我的資源-體驗”進入體驗的頁面。



巨人網絡 AI Lab 成立于 2022 年,是隸屬于巨人網絡的人工智能技術落地與研究機構。今年以來,團隊多項人工智能研究成果入選ACM MM、ICASSP、Interspeech等國際頂級學術會議,覆蓋多模態生成、音視頻合成及多智能體等技術方向。

----- END -----


wisemodel相關:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高??蒲性核?、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
風向徹底變了!西方媒體集體改口:中國,無需再向世界證明什么

風向徹底變了!西方媒體集體改口:中國,無需再向世界證明什么

大衛聊科技
2026-03-25 12:22:18
上海一男子每天3包煙,持續幾十年!醫生:全身沒一根血管是好的

上海一男子每天3包煙,持續幾十年!醫生:全身沒一根血管是好的

上觀新聞
2026-03-24 13:32:07
白宮堅稱美伊仍在談判,威脅伊朗“切勿誤判”;伊朗外長:美國談論“談判”無異于承認“失敗”,伊朗放聲開新戰線

白宮堅稱美伊仍在談判,威脅伊朗“切勿誤判”;伊朗外長:美國談論“談判”無異于承認“失敗”,伊朗放聲開新戰線

每日經濟新聞
2026-03-26 17:08:49
追悼會前,張雪峰婚姻狀況被扒,現任身份不一般,恐影響遺產分配

追悼會前,張雪峰婚姻狀況被扒,現任身份不一般,恐影響遺產分配

喜歡歷史的阿繁
2026-03-26 14:40:54
巴薩舊將:當時赫萊布知道自己要離隊,他往功能飲料里兌酒喝

巴薩舊將:當時赫萊布知道自己要離隊,他往功能飲料里兌酒喝

懂球帝
2026-03-26 06:43:09
已刪除!鐘麗緹發文道歉:在孩子教育問題上有疏忽

已刪除!鐘麗緹發文道歉:在孩子教育問題上有疏忽

半島晨報
2026-03-24 15:30:03
人過五十才懂:和子女最好的相處,不是給錢出力,而是守住這條線

人過五十才懂:和子女最好的相處,不是給錢出力,而是守住這條線

荷蘭豆愛健康
2026-03-23 01:42:20
瘋了!有新聯賽硬剛NBA!想搶詹姆斯約基奇!

瘋了!有新聯賽硬剛NBA!想搶詹姆斯約基奇!

柚子說球
2026-03-26 22:00:29
學醫后才知道,保護心血管最好的運動,不是慢跑快走,而是這個

學醫后才知道,保護心血管最好的運動,不是慢跑快走,而是這個

醫學科普匯
2026-03-23 21:55:03
紫薇老公也是2cm

紫薇老公也是2cm

毒舌扒姨太
2026-03-24 22:44:57
美媒:萬斯將出面

美媒:萬斯將出面

極目新聞
2026-03-26 09:51:54
以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

八斗小先生
2025-12-26 09:33:27
無人機真是中國領先嗎?為何戰場上被打下的,全都是中國無人機

無人機真是中國領先嗎?為何戰場上被打下的,全都是中國無人機

安安說
2026-03-19 13:00:22
重磅!新加坡國立大學原副校長,全職加盟清華大學

重磅!新加坡國立大學原副校長,全職加盟清華大學

TOP大學來了
2026-03-26 17:43:56
全國多地學校宣布:取消早讀!家長:孩子每天多睡近一小時,早上吃飯也不慌了

全國多地學校宣布:取消早讀!家長:孩子每天多睡近一小時,早上吃飯也不慌了

山西晚報
2026-03-26 17:30:54
德轉列世預賽附加賽球隊身價排行:意大利8.39億歐居首

德轉列世預賽附加賽球隊身價排行:意大利8.39億歐居首

懂球帝
2026-03-26 15:59:41
1965年,毛主席點名讓彭德懷復出,背后有人拼命阻撓,這人后來判了18年

1965年,毛主席點名讓彭德懷復出,背后有人拼命阻撓,這人后來判了18年

史海孤雁
2026-03-25 18:31:11
只剩6天!醫保全國統一,41-61歲抓緊辦這幾件事,否則就晚了!

只剩6天!醫保全國統一,41-61歲抓緊辦這幾件事,否則就晚了!

另子維愛讀史
2026-03-25 22:09:07
“油價飆升至200美元”?特朗普團隊被爆評估極端情景,白宮緊急否認

“油價飆升至200美元”?特朗普團隊被爆評估極端情景,白宮緊急否認

第一財經資訊
2026-03-26 18:58:56
國足VS庫拉索:留洋小將坐鎮中場,韋世豪王鈺棟領銜,張玉寧沖鋒

國足VS庫拉索:留洋小將坐鎮中場,韋世豪王鈺棟領銜,張玉寧沖鋒

零度眼看球
2026-03-26 07:23:48
2026-03-27 04:40:49
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

美團發布外賣大戰后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

家居
本地
藝術
數碼
公開課

家居要聞

傍海而居 靜觀蝴蝶海

本地新聞

救命,這只醬板鴨已經在我手機復仇了一萬遍

藝術要聞

北京大興機場和青島膠東機場“撞臉”,長得像就是抄襲?

數碼要聞

英特爾發Q1.26版Arc Pro專業顯卡驅動,支持B70 / B65顯卡

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版