337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

清華&巨人網絡打破數據壁壘,首創MoE多方言TTS框架

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動,最高可得算力券+token包380元獎勵,歡迎參與和支持!

無論是中文的粵語、閩南話、吳語,還是歐洲的荷蘭比爾茨語方言、法國奧克語,亦或是非洲和南美的地方語言,方言都承載著獨特的音系與文化記憶,是人類語言多樣性的重要組成部分。然而,許多方言正在快速消失,語音技術如果不能覆蓋這些語言,勢必加劇數字鴻溝與文化失聲。

在當今大模型引領的語音合成時代,通用 TTS 系統已展現出令人驚嘆的能力,但方言 TTS 依然是相關從業者難以觸及的「灰色地帶」。現有的工業級模型往往依賴巨量專有數據,這讓方言 TTS 從業者和研究者幾乎無從下手:缺乏統一的語料構建方法,更缺乏一個可實現多語言的端到端開源框架。

為此,來自巨人網絡 AI Lab 與清華大學電子工程系 SATLab的研究團隊聯合首創了DiaMoe-TTS,一個在一定程度上媲美工業級方言 TTS 模型的開源全套解決方案。他們基于語言學家的專業經驗,構建了一個統一的 IPA 表達體系,并且在僅依賴開源方言 ASR 數據的前提下提出這一方案。

在推出中文方言版本之前,研究團隊已在英語、法語、德語、荷蘭比爾茨語等多語種場景中進行過驗證,確保該方法具備全球范圍內多語言的可擴展性與穩健性。DiaMoe-TTS已上線始智AI-wisemodel開源社區,歡迎大家前去體驗。


模型、數據集和代碼地址

https://wisemodel.cn/organization/Giant_AILab


DiaMoE-TTS 不僅僅是一個單點模型,而是一個面向學術界與開源社區的全鏈路貢獻:

  • 全開源的數據預處理流程:讓研究者能夠從原始方言語音數據構建 TTS-ready 方言語音語料;

  • 統一的 IPA 標注與對齊方法:解決跨方言建模的一致性問題;

  • 完整的訓練與推理代碼:降低復現與擴展的門檻;

  • 方言感知 MoE 架構與低資源適配策略:為研究者提供穩定、靈活且可拓展的建模方法。

巨人網絡 AI Lab 與清華大學電子工程系 SATLab 希望借此推動方言語音合成的公平與普惠:讓任何研究者、開發者乃至語言文化保護工作者都能自由使用、改進與擴展這一框架;讓小眾語言與方言的聲音不再被淹沒在通用大模型的洪流中,而能通過開源的力量被更廣泛地聽見與傳承。

01.

生成demo

成都話:祝福大家前程似錦,順水順風。

鄭州話:祝你前途大好,成就非凡!

石家莊話:好的開始,等于成功的一半兒。

西安話:祝愿大家前程似錦,夢想成真。

粵語:我系鐘意廣州嘅春天。

02.

模型設計


統一IPA前端

在多方言語音合成中,使用拼音或字符輸入常常帶來嚴重的歧義與不一致問題,例如相同字符在不同方言中可能對應完全不同的發音。

DiaMoE-TTS 在前端設計中引入了國際音標(IPA)作為統一的輸入體系,將所有方言的語音映射到同一音素空間。這種方式消除了跨方言間的差異性,使得模型能夠在統一的表征體系下進行訓練,保證了建模的一致性與泛化能力。



方言感知Mixture-of-Experts(MoE)架構

在聲學建模部分,DiaMoE-TTS 設計了方言感知的 Mixture-of-Experts (MoE) 架構。傳統的單一建模網絡在多方言任務下容易出現「風格平均化」,導致各地方言的特色被弱化。MoE 結構通過引入多個專家網絡,讓不同的專家專注于學習不同方言的特征;同時,動態門控機制會根據輸入 IPA 自動選擇最合適的專家路由,從而保證了每種方言的音色和韻律特點得以保留。

為了增強門控的區分能力,我們還加入了方言分類輔助損失,使專家網絡在訓練時能夠更有針對性地建模方言特征。



低資源方言適配(PEFT)

許多方言面臨極端的數據稀缺問題,甚至僅有數小時的錄音語料。DiaMoE-TTS 提出了參數高效遷移 (PEFT) 策略,分別在 text embedding 層和 DiT 的注意力層中融入了Conditioning Adapter 與 LoRA,僅需微調少量參數即可完成方言擴展,主干與 MoE 模塊保持凍結,從而避免對已有知識的遺忘。

此外,研究團隊還采用了音高擾動與語速擾動等數據增強手段,即便在超低資源條件下,模型也能合成自然、流暢且風格鮮明的方言語音。


多階段訓練方法

DiaMoE-TTS 的訓練過程分為多個階段,以逐步提升模型性能并適應方言多樣性:


  • IPA 遷移初始化


在 F5-TTS 原始 checkpoint 的基礎上,引入經過 IPA 音素轉換的 Emilia 部分數據,對模型進行預熱訓練,從而實現輸入形式從拼音字符到 IPA 的平滑遷移。


  • 多方言聯合訓練

在統一 IPA 表達下,利用多個開源方言數據(CommonVoice 和 KeSpeech)進行聯合建模,同時激活 MoE 結構,使模型能夠學習共享特征并區分不同方言的發音模式。

  • 方言專家強化


通過動態門控機制與方言分類輔助損失,進一步優化 MoE 的分流效果,讓各專家更好地捕捉不同方言的獨特特征。


  • 低資源快速適配

針對僅有數小時語料的新方言,采用 PEFT 策略(LoRA + Conditioning Adapter),結合音高 / 語速擾動等數據增強,實現高效遷移并保持已有知識不被遺忘。

這種多階段、漸進式訓練的方法,使 DiaMoE-TTS 能夠在保證穩定性的同時,兼顧跨方言泛化與低資源適配能力。

03.

研究成果

通過圖表可以看到,在訓練數據量較為充足(百小時)的粵語上,DiaMoE-TTS 在WER、MOS 和 UTMOS三個指標上均取得了接近工業界語音大模型的表現。而在上海話、成都話、西安話、鄭州話、天津話等其他方言(幾小時到幾十小時不等)的對比實驗中,受限于開源方言 ASR 數據在「質量」與「規?!股系牟蛔?,模型整體表現略遜于部分工業級大模型。

但值得強調的是,DiaMoE-TTS 支持的方言范圍更廣,甚至可以擴展到介于語音合成(TTS)與歌聲合成之間的特殊類型,如京劇韻白,并能在僅有極少量數據的情況下實現快速建模,這為方言保護與文化傳承提供了新的可能性。


在消融實驗中,研究團隊選擇了成都話、西安話、鄭州話、石家莊話四種方言,對比了三種不同配置:僅使用 IPA 的版本(w/o MoE)、僅使用 MoE 且輸入為拼音的版本(w/o IPA)、以及完整的 IPA + MoE 方法(Ours)。

實驗結果表明,IPA 統一前端是性能提升的關鍵,將輸入由拼音替換為 IPA 后,WER 從 90% 以上顯著下降到 30%~40% 區間,MOS 評分也提升了 1~2 分。同時,Dialect-aware MoE 架構能夠進一步增強方言風格,以西安話為例,WER 從 41.09% 降至 33.00%,MOS 從 2.33 提升到 3.15,表現出明顯的改進。

最終,完整方案(MoE + IPA)在所有方言上都取得了最佳效果,不僅顯著降低了錯誤率,也大幅提升了語音的自然度。這充分證明了 IPA 前端在解決跨方言發音歧義方面的有效性,以及 MoE 在強化方言建模上的重要作用,兩者結合成為 DiaMoE-TTS 的核心優勢。



一句話總結

DiaMoE-TTS = IPA 前端統一化 + MoE 方言建模 + PEFT 低資源適配

在開放數據驅動下,實現低成本、低門檻、可擴展的多方言語音合成方案。

通俗易懂版本:不用海量數據,也不用復雜流程,DiaMoE-TTS 就能讓更多方言在數字世界開口說話。

DiaMoE-TTS 的全面開源只是一個起點。未來,研究團隊將持續擴展更多方言與小語種的語料,完善 IPA 對齊與數據預處理流程,并探索更高效的低資源建模方法,讓方言語音合成的研究與應用更加低門檻、更易復現。

同時,研究團隊希望這一框架能夠讓全球的研究者與開發者更便捷地參與到方言與小語種的語音技術研究中,讓它們不僅停留在實驗室里被探索,更能在教育、文化保護、虛擬人、數字文旅與跨境交流等實際場景中發揮價值。他們相信,方言不應在數字時代被遺忘,每一種語言都值得在數字世界被聽見。

編輯:成蘊年

----- END -----

wisemodel相關:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
黃金、白銀,直線跳水!特朗普,大消息!

黃金、白銀,直線跳水!特朗普,大消息!

證券時報e公司
2026-03-26 14:47:48
忠告天下子女:再孝順,也不要為年過75歲的老父老母,做這三件事

忠告天下子女:再孝順,也不要為年過75歲的老父老母,做這三件事

風起見你
2026-03-27 00:22:57
大漲近2元/升后,新周期油價降幅“漲了起來”,下次4月7日調整

大漲近2元/升后,新周期油價降幅“漲了起來”,下次4月7日調整

豬友巴巴
2026-03-25 15:00:03
美軍計劃增兵中東 對伊朗地面戰爭要來了?

美軍計劃增兵中東 對伊朗地面戰爭要來了?

看看新聞Knews
2026-03-24 19:12:06
FIFA系列賽新規:比賽需決出勝負 打平將互射點球

FIFA系列賽新規:比賽需決出勝負 打平將互射點球

體壇周報
2026-03-26 15:53:18
“你們都是懦夫嗎”:俄校長怒斥學生不參軍

“你們都是懦夫嗎”:俄校長怒斥學生不參軍

桂系007
2026-03-24 03:36:16
解放戰爭中,國民黨軍也曾策反我軍,一次拉走4個師,但10天全滅

解放戰爭中,國民黨軍也曾策反我軍,一次拉走4個師,但10天全滅

云霄紀史觀
2026-03-26 11:51:38
對于近期貿易伙伴關切的中國貿易順差問題,商務部回應

對于近期貿易伙伴關切的中國貿易順差問題,商務部回應

南方都市報
2026-03-26 16:50:09
曝張雪峰3段婚姻都是閃婚,前妻緬懷滿是惋惜,瘋狂健身疑為備孕

曝張雪峰3段婚姻都是閃婚,前妻緬懷滿是惋惜,瘋狂健身疑為備孕

古希臘掌管松餅的神
2026-03-25 12:00:46
俄羅斯人想不明白:為什么強大的中國,幾千年都不要西伯利亞?

俄羅斯人想不明白:為什么強大的中國,幾千年都不要西伯利亞?

賤議你讀史
2026-03-26 00:07:41
足壇瘋狂一夜!意大利2-0,瑞典3-1,丹麥4-0,歐洲區附加賽決賽對陣出爐

足壇瘋狂一夜!意大利2-0,瑞典3-1,丹麥4-0,歐洲區附加賽決賽對陣出爐

體壇最前線66
2026-03-27 07:17:15
1955年授銜,11位國軍起義將領,都授什么軍銜?

1955年授銜,11位國軍起義將領,都授什么軍銜?

幽州校尉
2026-03-04 07:25:03
俄軍北極最強戰艦,被擊沉!烏軍集中390架自殺機飽和突破成功

俄軍北極最強戰艦,被擊沉!烏軍集中390架自殺機飽和突破成功

探史
2026-03-27 04:05:00
20人老頭樂公司起訴小米汽車,把網友們CPU干冒煙了……

20人老頭樂公司起訴小米汽車,把網友們CPU干冒煙了……

柴狗夫斯基
2026-03-26 11:44:33
陳賡兒子晚年首次透露:父親這輩子最怕鄧小平,跟周總理卻是過命的交情

陳賡兒子晚年首次透露:父親這輩子最怕鄧小平,跟周總理卻是過命的交情

史海孤雁
2026-03-25 18:42:27
AI短劇沖擊橫店:有演員一個月只接到一部戲,有導演轉型做AI劇,“都在尋找出路”

AI短劇沖擊橫店:有演員一個月只接到一部戲,有導演轉型做AI劇,“都在尋找出路”

環球網資訊
2026-03-26 19:40:07
重大轉折!俄羅斯,公開下場了!

重大轉折!俄羅斯,公開下場了!

大嘴說天下
2026-03-26 22:17:57
特朗普稱再推遲10天打擊伊朗發電廠

特朗普稱再推遲10天打擊伊朗發電廠

財聯社
2026-03-27 04:25:05
真是人走茶涼!看了三只羊傳媒的現狀,才明白什么叫兔死狗烹

真是人走茶涼!看了三只羊傳媒的現狀,才明白什么叫兔死狗烹

聚焦真實瞬間
2026-02-10 20:45:40
去世還不到48小時,張雪峰過往爭議被扒,出軌傳聞早已真相大白

去世還不到48小時,張雪峰過往爭議被扒,出軌傳聞早已真相大白

蘭亭墨未干
2026-03-26 22:47:38
2026-03-27 08:28:50
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

美團發布外賣大戰后成績單:虧損超200億

頭條要聞

特朗普再表態:伊朗必須達成協議 否則將面臨猛烈攻勢

頭條要聞

特朗普再表態:伊朗必須達成協議 否則將面臨猛烈攻勢

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

房產
時尚
親子
手機
軍事航空

房產要聞

突發,三亞又有大批征遷補償方案出爐!

400萬人愛過的女孩,被黃謠網暴180天后

親子要聞

這娃生下來就是報恩的,聽到他說對不起的時候,眼淚一下子就出來了

手機要聞

三星闊折疊渲染圖曝光,Galaxy Z Fold 8寬屏版

軍事要聞

擔心特朗普突然停戰 以總理下令48小時盡力摧毀伊設施

無障礙瀏覽 進入關懷版