337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

從開源VibeVoice-ASR看語音模型的設(shè)計(jì)、數(shù)據(jù)、幻覺和未來

0
分享至

最近,微軟開源了VibeVoice-ASR,我也第一時(shí)間進(jìn)行了體驗(yàn)。首先,對(duì)微軟團(tuán)隊(duì)開源這個(gè)模型表示感謝。盡管在測(cè)試過程中發(fā)現(xiàn)了一些問題,但任何開源工作都值得尊重。作為開源工作,我們沒有任何理由要求太多,這些問題也都是可以解決的,況且微調(diào)代碼也即將開源。并且從我粗淺的直覺和簡(jiǎn)陋的測(cè)試上得出的結(jié)論:如果可以從數(shù)據(jù)覆蓋上進(jìn)一步優(yōu)化,這個(gè)模型應(yīng)該還是有潛力的。在此,我想基于這個(gè)工作,聊一聊VibeVoice-ASR的優(yōu)點(diǎn)與不足,并分享一些對(duì)模型設(shè)計(jì)和數(shù)據(jù)的思考。

多任務(wù)的模型設(shè)計(jì)

雖然模型命名為VibeVoice-ASR,但它并非單純的語音轉(zhuǎn)文字模型。VibeVoice-ASR集成了說話人日志、時(shí)間戳以及部分聲音事件檢測(cè)功能。

這樣的多任務(wù)設(shè)計(jì)符合大模型時(shí)代的技術(shù)趨勢(shì),也契合未來的用戶需求。如今,僅實(shí)現(xiàn)語音轉(zhuǎn)錄已遠(yuǎn)遠(yuǎn)不夠。無論是底層模型還是上層應(yīng)用,乃至用戶對(duì)智能體驗(yàn)日益提升的期待,都要求我們從語音數(shù)據(jù)中提取更豐富的信息。用戶對(duì)產(chǎn)品的追求不再停留在基礎(chǔ)功能,而更多地轉(zhuǎn)向情感價(jià)值與類人體驗(yàn)。


關(guān)注聲音特性

先吐個(gè)槽,我非常反感各類PR文章的自夸,動(dòng)輒宣稱“世界第一”。(我能理解,畢竟要給投資人、客戶看,也需要曝光度。)但這種風(fēng)氣很容易誤導(dǎo)行業(yè)外的人。畢竟,包括我在內(nèi),99%的負(fù)責(zé)人今天做什么,取決于早上在自媒體上刷到了什么(借用別人的段子)。

我認(rèn)為,聲音在機(jī)器理解用戶方面的價(jià)值被嚴(yán)重低估了。理解聲音,是通往“世界模型”、理解世界不可或缺的一環(huán)。

遺憾的是,目前除了Gemini,我還沒看到能與之比肩的系統(tǒng)。我也認(rèn)為這是谷歌布局未來重要的一步。(不得不提一句,至于那些號(hào)稱超越的,或許在某些測(cè)試集和指標(biāo)上能實(shí)現(xiàn)超越,這一點(diǎn)我并不否認(rèn)。)

VibeVoice-ASR模型其實(shí)讓我有所期待。至少,它是開源模型中明確對(duì)聲紋進(jìn)行建模的,并且在我真實(shí)測(cè)試集(家庭錄音,包括男性、女性、兒童)中,在區(qū)分度較大的場(chǎng)景下是可用的。

  • “建模聲紋很難嗎?”“是的。”

  • “聲紋識(shí)別現(xiàn)在做得很好了嗎?”“并沒有?!?/p>

聲紋作為聲音的底層屬性,與語音語義有很大不同。識(shí)別一個(gè)人的聲紋,對(duì)人類來說也并非易事。我們覺得容易,大多是因?yàn)槲覀兘佑|的聲紋往往是“已注冊(cè)”的。從模型實(shí)現(xiàn)來看,聲紋的做法看似簡(jiǎn)單,但實(shí)際效果并不理想,原因有多方面:

極易受環(huán)境干擾

與ASR相比,聲紋更易受聲學(xué)環(huán)境干擾。訓(xùn)練數(shù)據(jù)的覆蓋范圍、環(huán)境噪聲、信道差異,以及注冊(cè)與使用條件的不一致,都會(huì)影響最終效果。

聲紋具有時(shí)變性

聲紋會(huì)隨時(shí)間發(fā)生漂移,比如兒童的聲音變化最快,不同兒童之間的聲音區(qū)分也很困難,成人的聲音也會(huì)因狀態(tài)(如感冒、情緒)而改變。

聲紋數(shù)據(jù)自動(dòng)標(biāo)注困難

從數(shù)據(jù)標(biāo)注角度看,由于歷史上聲紋模型效果一般,再加上上述難點(diǎn),導(dǎo)致自動(dòng)化標(biāo)注很難做到準(zhǔn)確。

幻覺問題較為突出

在體驗(yàn)VibeVoice-ASR模型的過程中,我發(fā)現(xiàn)最明顯的問題是幻覺。測(cè)試中,我注意到一個(gè)特別的現(xiàn)象:

數(shù)據(jù)中孩子的哭聲極容易觸發(fā)模型的幻覺。

最初我以為是數(shù)據(jù)過長(zhǎng)(約30分鐘)導(dǎo)致的,于是特意將哭聲部分單獨(dú)截取出來測(cè)試,但幻覺依然出現(xiàn),比如下面的例子:


哭聲語譜圖


哭聲幻覺識(shí)別結(jié)果

另外一條數(shù)據(jù),中間在含糊不清的地方發(fā)生幻覺:


這背后最主要的原因,應(yīng)該還是接下來要談的數(shù)據(jù)覆蓋問題。

長(zhǎng)度真的那么重要嗎?

對(duì)于文本大模型,長(zhǎng)度等于上下文,上下文窗口的確很重要。但對(duì)于語音模型,特別是偏重轉(zhuǎn)錄的模型,在當(dāng)前階段,長(zhǎng)度是否真的如此關(guān)鍵,我持保留態(tài)度。

VibeVoice-ASR提出的理由是:


首先,關(guān)于上下文斷裂問題——純音頻的上下文真能解決這個(gè)問題嗎?或許能部分緩解,但對(duì)多數(shù)場(chǎng)景來說,可能并非至關(guān)重要。文本層面的上下文或許已足以提升準(zhǔn)確率。

其次,工程復(fù)雜度方面,文中提到的說話人日志優(yōu)勢(shì)我很認(rèn)同,但這個(gè)和長(zhǎng)度其實(shí)關(guān)系不是特別大,我認(rèn)為更多的優(yōu)勢(shì)來自于識(shí)別+說話人的聯(lián)合建模。短句說話人日志的確很困難,但幾分鐘的數(shù)據(jù)進(jìn)行說話人相關(guān)的工作也沒有太大問題。如果可以把效果做好,后續(xù)通過一個(gè)混淆矩陣進(jìn)行相同說話人的聚類。如果長(zhǎng)語音識(shí)別確實(shí)可以做的好,那么降低系統(tǒng)復(fù)雜度的優(yōu)勢(shì)肯定是有的。

綜上所述,在當(dāng)前條件尚不成熟的情況下,過度強(qiáng)調(diào)長(zhǎng)度或許并不是最優(yōu)先的。相比長(zhǎng)度,我們更應(yīng)關(guān)注模型的穩(wěn)定性與準(zhǔn)確性。當(dāng)然,如果能處理更長(zhǎng)的音頻,那自然是更好的。

“垃圾”數(shù)據(jù)也有價(jià)值

從我測(cè)試中遇到的幻覺問題,結(jié)合當(dāng)前主流數(shù)據(jù)清洗流程的做法,會(huì)發(fā)現(xiàn)一個(gè)現(xiàn)象:

人們常用多個(gè)模型交叉驗(yàn)證,篩選出“有用且正確”的數(shù)據(jù)。

什么是“有用且正確”的數(shù)據(jù)?如果一條數(shù)據(jù)包含文字,且多個(gè)模型識(shí)別結(jié)果一致,就被認(rèn)為是有價(jià)值且標(biāo)注正確的。那么,那些被過濾掉的數(shù)據(jù),其價(jià)值又該如何看待?

事實(shí)上,它們的價(jià)值在今天更應(yīng)被重視。原因如下:

幸存者偏差

這種方式篩選出的數(shù)據(jù),都是以往模型基礎(chǔ)上的“幸存者”,數(shù)據(jù)質(zhì)量雖高,但對(duì)模型來說難度較低。換句話說,大量這類數(shù)據(jù)對(duì)模型能力的提升并無太大增益。如果模型只用這類數(shù)據(jù)訓(xùn)練,那么無論輸入什么,哪怕是人耳都難以聽清的語音,模型都可能用最大似然的方式“猜”一個(gè)最可能的結(jié)果,而不是“承認(rèn)困難”。一個(gè)懂得“示弱”的模型,或許也有其價(jià)值。

垃圾”數(shù)據(jù)的價(jià)值

所謂“垃圾數(shù)據(jù)”,正是那些被自動(dòng)標(biāo)注流程過濾掉的數(shù)據(jù),它們的價(jià)值應(yīng)當(dāng)被重新審視。比如我測(cè)試數(shù)據(jù)中的哭聲片段,很可能會(huì)被清洗流程過濾掉。再加上這類聲音重復(fù)性強(qiáng),更容易導(dǎo)致模型產(chǎn)生幻覺。

在強(qiáng)化學(xué)習(xí)中,也應(yīng)該加強(qiáng)對(duì)“壞”數(shù)據(jù)如何給予正確反饋的機(jī)制。

總結(jié)

非常高興看到越來越多的開源工作,推動(dòng)模型能力逐步提升。同時(shí)我們也應(yīng)認(rèn)識(shí)到,語音遠(yuǎn)非一個(gè)已被徹底解決的問題。無論是真實(shí)場(chǎng)景的數(shù)據(jù)表現(xiàn),還是實(shí)際落地應(yīng)用,都還有很長(zhǎng)的路要走。隨著AI技術(shù)的進(jìn)步,市場(chǎng)對(duì)更優(yōu)秀的語音交互、合成與理解的需求顯著增加。真心希望有實(shí)力的公司能堅(jiān)持投入,去做那些困難卻正確的事。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中銀保險(xiǎn)有限公司原董事長(zhǎng)周功華被開除黨籍

中銀保險(xiǎn)有限公司原董事長(zhǎng)周功華被開除黨籍

界面新聞
2026-04-03 18:04:22
“霸王茶姬疑似被日本抄襲”沖上熱搜,客服人員回應(yīng)

“霸王茶姬疑似被日本抄襲”沖上熱搜,客服人員回應(yīng)

極目新聞
2026-04-03 16:08:05
楊麗萍“專屬男舞伴”墜樓自殺,跳得果決,和楊麗萍關(guān)系非同一般

楊麗萍“專屬男舞伴”墜樓自殺,跳得果決,和楊麗萍關(guān)系非同一般

一盅情懷
2026-04-03 07:49:11
西班牙宣布與以色列斷絕外交關(guān)系。

西班牙宣布與以色列斷絕外交關(guān)系。

阿七說史
2026-04-01 15:51:46
布倫特原油現(xiàn)貨價(jià)格飆升至每桶141美元,創(chuàng)2008年金融危機(jī)以來最高水平

布倫特原油現(xiàn)貨價(jià)格飆升至每桶141美元,創(chuàng)2008年金融危機(jī)以來最高水平

新浪財(cái)經(jīng)
2026-04-03 05:45:40
瓜迪奧拉下家大爆冷!曼城離任后有望接手意大利國家隊(duì)?

瓜迪奧拉下家大爆冷!曼城離任后有望接手意大利國家隊(duì)?

夜白侃球
2026-04-03 09:04:39
想讓中國背鍋?一張殘骸圖讓外媒炸鍋:伊朗擊落中國翼龍無人機(jī)!

想讓中國背鍋?一張殘骸圖讓外媒炸鍋:伊朗擊落中國翼龍無人機(jī)!

青青子衿
2026-04-03 16:11:49
后天清明,提醒大家:1不熬、2不吃、3不穿,別忘告訴家人!

后天清明,提醒大家:1不熬、2不吃、3不穿,別忘告訴家人!

普陀動(dòng)物世界
2026-04-03 13:17:55
兩年前“預(yù)言”美伊開戰(zhàn)的北京高中老師,對(duì)局勢(shì)有了新判斷

兩年前“預(yù)言”美伊開戰(zhàn)的北京高中老師,對(duì)局勢(shì)有了新判斷

用淚來贖罪
2026-04-01 16:45:43
伊朗確認(rèn):雷扎伊身亡

伊朗確認(rèn):雷扎伊身亡

澎湃新聞
2026-04-03 19:58:06
不裝了!訪陸行程剛曝光,鄭麗文突遭算計(jì)直飛美國?最狠反擊打響

不裝了!訪陸行程剛曝光,鄭麗文突遭算計(jì)直飛美國?最狠反擊打響

小嵩
2026-04-03 13:02:12
價(jià)格斷崖式下跌!商家瘋狂拋售!深圳網(wǎng)友:等等黨贏麻了

價(jià)格斷崖式下跌!商家瘋狂拋售!深圳網(wǎng)友:等等黨贏麻了

南方都市報(bào)
2026-04-01 15:16:38
王楚欽淘汰小布,小布賽后第一時(shí)間恭喜他,沒想到還這樣盛贊大頭

王楚欽淘汰小布,小布賽后第一時(shí)間恭喜他,沒想到還這樣盛贊大頭

徐驤老表哥
2026-04-04 01:02:32
繼德國之后,英國也開始貼出“中文標(biāo)語”?中國游客:不能夠接受

繼德國之后,英國也開始貼出“中文標(biāo)語”?中國游客:不能夠接受

潮鹿逐夢(mèng)
2026-04-02 12:31:48
特步二公主丁佳敏低調(diào)生子,與周力源從校服到一家三口

特步二公主丁佳敏低調(diào)生子,與周力源從校服到一家三口

君笙的拂兮
2026-04-03 15:10:06
王楚欽擊敗小布,沒想到賽后采訪他的記者卻極不專業(yè),被大頭回懟

王楚欽擊敗小布,沒想到賽后采訪他的記者卻極不專業(yè),被大頭回懟

陳秣愛釣魚
2026-04-04 02:14:51
45歲鄭智瞪眼+臉色鐵青!開局4輪3負(fù)丟11球 遭質(zhì)疑:竟和蓉城對(duì)攻

45歲鄭智瞪眼+臉色鐵青!開局4輪3負(fù)丟11球 遭質(zhì)疑:竟和蓉城對(duì)攻

我愛英超
2026-04-03 21:58:19
“已淪陷”“堵成停車場(chǎng)”!深圳到處人從眾!有人稱3小時(shí)挪了不到5公里

“已淪陷”“堵成停車場(chǎng)”!深圳到處人從眾!有人稱3小時(shí)挪了不到5公里

南方都市報(bào)
2026-04-03 22:11:21
中央終于放手!中央交出“定價(jià)權(quán)”,地方以后只能靠自己搶錢?

中央終于放手!中央交出“定價(jià)權(quán)”,地方以后只能靠自己搶錢?

混沌錄
2026-03-31 17:03:12
49歲李維嘉:不知道遺產(chǎn)傳給誰

49歲李維嘉:不知道遺產(chǎn)傳給誰

大象新聞
2026-04-03 17:17:36
2026-04-04 04:52:49
開源中國 incentive-icons
開源中國
每天為開發(fā)者推送最新技術(shù)資訊
7667文章數(shù) 34520關(guān)注度
往期回顧 全部

科技要聞

5萬輛庫存車,給了特斯拉一記重拳

頭條要聞

伊朗:美飛行員跳傘在伊境內(nèi)落地 美方曾試圖營救未果

頭條要聞

伊朗:美飛行員跳傘在伊境內(nèi)落地 美方曾試圖營救未果

體育要聞

被NBA選中20年后,他重新回到籃球場(chǎng)

娛樂要聞

夏克立官宣再婚當(dāng)爸?否認(rèn)婚內(nèi)出軌

財(cái)經(jīng)要聞

專家稱長(zhǎng)期攝入“飄香劑”存在健康隱患

汽車要聞

你介意和遠(yuǎn)房親戚長(zhǎng)得很像嗎?

態(tài)度原創(chuàng)

游戲
健康
時(shí)尚
數(shù)碼
公開課

三十年鐵律崩塌!主機(jī)漲價(jià)瘋魔 IGN警告行業(yè)"將死"

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

冬奧雙金夫妻:愛與榮耀,頂峰相見

數(shù)碼要聞

消息稱三星顯示器部門面臨巨大危機(jī),最壞結(jié)果將退出中國大陸市場(chǎng)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版