網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI視頻有了音畫同步后，我想看看語音合成能不能活下來

2026-02-18 20:03:18　來源: 卡爾的AI沃茨

北京舉報

分享至

最近的AI視頻模型，幾乎都能做音畫同步了。

給它一段臺詞，人物開口說話，嘴型能對上，背景里還有環(huán)境聲，連語氣都能帶點情緒。

以前的制作流程都是先把畫面生成出來，然后再用語音合成模型合成配音，做音樂，最后再對口型和剪輯成片。

AI視頻自己就能搞定聲音的話，語音合成是不是可以被優(yōu)化了？問題是現(xiàn)在的AI視頻是片段式的生成，一次性支持生成 15 秒，在展現(xiàn)一段比較長的戲時，受到時長限制，整個表演的情緒是斷掉的，也比較容易銜接不上。

我做了一個年初二拜年被七大姑八大姨催婚的經(jīng)典片段來對比看看，

這段視頻里，AI視頻是分段做出來的，有的片段要在十幾秒的內(nèi)容里塞入大量的對話，這會導(dǎo)致AI說話語速超快，偶爾也會因為時長不夠，導(dǎo)致話沒說完就被切斷的情況。仔細(xì)聽AI出的音色，在不同的片段中，其實還是會有些不太一樣。

但如果我們轉(zhuǎn)個思路，用音頻來驅(qū)動畫面生成的話，就不會出現(xiàn)這種情況了。

在成熟的AI視頻短片的制作角度上來看，對于對話片段或者是以語言表達(dá)為主的畫面，可以先生成音頻，直到產(chǎn)出比較滿意的情緒，然后再使用這段音頻去驅(qū)動同等時長的人物說話鏡頭。

像Minimax最近推出了新版本Speech-2.8。

minimaxi.com/audio

這個版本跟之前不太一樣的地方就是，新增了在一整段音頻中添加不同的情緒、可以在句子中間，詞組之間增加停頓，可以直接在括號里面加入一些語氣詞（比如輕笑、吸鼻子、清嗓子等等）等功能。

就上面圖中這個提示語，我們先來聽聽效果，

從整個音頻的這一段話中，能夠感覺到情緒是從開心到難過，到有點釋然，再到有一點點難過的轉(zhuǎn)變過程。這個放到AI視頻里，可能就是需要抽卡了。

MiniMax Speech-2.8現(xiàn)在可以在句子中間加入吸氣、嘆氣等換氣方式。這種模擬真人說話的細(xì)節(jié)非常靈活，可以根據(jù)我們自己的需求，把這些語氣加入進(jìn)去。

我又嘗試了一下更明顯的情緒轉(zhuǎn)變，像是講一個冷笑話的感覺，從原本恐懼的情緒突然轉(zhuǎn)變?yōu)殚_心的情緒，講述自己實際上看到的并不是恐怖的東西，這有一種突然放松的感覺。

我們能加入的這些非語言性的語氣詞，其實就是在輔助情緒的表達(dá)，讓整個 AI 生成的語音更加符合人受驚嚇時的本能，讓整段聲音表演的情緒轉(zhuǎn)化更自然。

或者我們在給一些影片進(jìn)行風(fēng)格化的旁白配音的時候，也可以使用 MiniMax。

以前用AI生成語音，其實很難做到自然的換氣。你會發(fā)現(xiàn) AI 往往會一口氣說出很長的一段話，讓人有一種喘不上氣的感覺。但在 MiniMax Speech-2.8 里，是可以在一句話的中間加入「正常換氣」這個語氣詞。

甚至現(xiàn)在還有一些更有意思的東西。比如在語氣詞里加入哼唱，我們在制作一些比較調(diào)皮、可愛的角色時，可以在他說話的前面加上一段哼唱，這樣表現(xiàn)出來的效果就會更加生動。

而且我這里發(fā)現(xiàn)了一個小tips，如果你想要它連續(xù)哼唱出來一段旋律，可以連續(xù)多添加幾個「哼唱」的語氣詞，將這些語氣詞疊在一起，它就可以輸出一段用你選中的音色哼唱出來的旋律，聽起來更活潑。

或者，在表達(dá)某些感受的時候，其實也可以用上這些語氣詞。就比如說在表達(dá)很疼、很痛的時候，可以用這個「嘶嘶聲」。這能很好地表現(xiàn)出人物被碰到傷口時那種撕拉的疼痛感，非常有現(xiàn)場感。而且我發(fā)現(xiàn)只要你疊的語氣詞數(shù)量越多，它呈現(xiàn)的語氣程度就會越重，越明顯。

而且 MiniMax 已經(jīng)內(nèi)置了非常豐富的音色選擇，適配非常多的角色。但如果你覺得這些預(yù)設(shè)音色都不太適合自己的角色，還可以用提示語自己設(shè)計一個專屬音色。

然后返回語音合成頁面，寫好你在這個語音中需要的文本，以及上面我們介紹過的那些語氣詞和情緒。最后在右面選擇你剛剛生成的音色，就能得到一段完全自定義的音頻了。

后續(xù)你還可以一直使用這個音色進(jìn)行持續(xù)不斷的生成，相當(dāng)于自己創(chuàng)建了一個聲優(yōu)角色。

而且現(xiàn)在還是進(jìn)去就有10000積分可以直接用，已經(jīng)夠生成很多很多音頻片段了。

這一圈體驗下來，我已經(jīng)想好什么時候用音畫同步，什么時候用語音參考生成視頻了。

AI視頻模型的音畫同出，解決的是效率問題，它讓普通人也能快速產(chǎn)出基本完整的視聽內(nèi)容。

但MiniMax Speech-2.8解決的是完成度的問題。

對于成熟的漫劇，短劇，甚至電影制作來說，

畫面和聲音，通常都需要被分開打磨。

你需要一個獨立的配音棚，去保證所有角色音色的統(tǒng)一，去補(bǔ)錄那些不夠完美的表演，去為一個關(guān)鍵鏡頭，反復(fù)調(diào)整演員說話的口氣和節(jié)奏。

這就是我們平時在看影視劇的時候會發(fā)現(xiàn)，

除了拍攝影視劇的總導(dǎo)演之外，

實際上經(jīng)常會有一個聲效導(dǎo)演的職位，

他的職責(zé)就是去把控整部影片的聲音問題，

讓影片的聲效在配合高質(zhì)量畫面的同時，也能夠給大家?guī)砺犛X上的沖擊。

所以即便是有了演員的現(xiàn)場錄音，但可能因為表演時的情緒或者是口音問題，還是會讓演員在后期對自己的表演進(jìn)行重新配音。

MiniMax Audio讓我們也可以低成本即可實現(xiàn)專業(yè)配音效果，

按照我們的想法去調(diào)整音色，語速，語氣詞，

讓一句話中擁有不同的情感層次。

畢竟，讓畫面擁有生命力的，是表演。

而讓表演擁有靈魂的，

往往是聲音。

@ 作者 / 卡爾 & 阿湯

最后，感謝你看到這里如果喜歡這篇文章，不妨順手給我們點贊｜在看｜轉(zhuǎn)發(fā)｜評論

如果想要第一時間收到推送，不妨給我個星標(biāo)

如果你有更有趣的玩法，歡迎在評論區(qū)聊聊

更多的內(nèi)容正在不斷填坑中……

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.