今天是火山Force原動(dòng)力大會(huì),我在現(xiàn)場(chǎng)。
![]()
這次他們也掏了很多有意思的新貨出來,但我覺得最炸的,還是他們的新視頻模型,Seedance 1.5 Pro。
因?yàn)檫@次的更新,真的做到了影視級(jí)別的音畫同步,而且中文能力和方言能力是目前所有模型里的獨(dú)一檔。
![]()
語(yǔ)音生成能力這點(diǎn)在他們的技術(shù)報(bào)告里也有體現(xiàn)。
左邊是視頻生成能力,右邊是語(yǔ)音生成能力。綠色的就是Seedance新模型,在語(yǔ)音生成這一塊可以說是遙遙領(lǐng)先。。。
![]()
模型昨天已經(jīng)上線了,可以直接在豆包,即夢(mèng)或者火山方舟上玩起來。
豆包是在視頻生成或者照片動(dòng)起來這一欄里選1.5 Pro模型。
![]()
即夢(mèng)是在生成視頻里選3.5 Pro,也是基于Seedance 1.5 Pro的能力。
目前3.5 Pro支持文生圖,單參考和首尾幀,智能多幀和主體參考還要再等等,不過現(xiàn)在這些其實(shí)已經(jīng)很夠用了。
![]()
還有火山方舟,網(wǎng)址在此:https://exp.volcengine.com/ark/vision?launch=seedance
京劇玩法,名畫玩法什么的都可以在方舟上體驗(yàn)。
![]()
API也在路上了,現(xiàn)在就可以預(yù)約。
Seedance 1.5 Pro的能力維度呢,我覺得可以分成這么幾大塊,復(fù)雜場(chǎng)景的音畫同步能力、中文和方言內(nèi)容輸出能力、情感表現(xiàn)力。
我們一個(gè)一個(gè)說。
一.音畫同步
最基本也最重要的,就是主體說話時(shí)的唇形一致性,我們的第一個(gè)case也從這個(gè)測(cè)起。
提示詞:讓這個(gè)猴子在攝影棚里唱一段rap,猴子對(duì)著鏡頭說唱,鏡頭跟隨猴子的動(dòng)作運(yùn)鏡,雷鬼+tropical風(fēng)格,渾厚黑人嗓音,從口哨聲引入,第二秒開始加入強(qiáng)節(jié)奏的鼓點(diǎn),第三秒后加入有節(jié)奏感的rap詞,語(yǔ)速100BPM,同步配合鼓點(diǎn):As Moko the monkey, skankin’ in the sun, Swingin’ through the palm trees, life’s just for fun,Big smile,no fear— One love from the jungle, yeah I’m right here!
如上,對(duì)口型對(duì)的很完美,呲著一口大白牙,非常引人矚目。
非要挑點(diǎn)什么問題的話就是,rap的節(jié)奏感還有進(jìn)步的空間。。。
這里要說一個(gè)小小小技巧,如果想在這個(gè)視頻里說什么詞,一定要在提示詞里給模型規(guī)定好。
包括你想要的音效節(jié)奏啥的,也和它說清楚,總之別讓它太自由發(fā)揮,不然效果你懂的。
然后再看一個(gè)多人對(duì)話場(chǎng)景,提示詞如下:
![]()
一來一回總共四句對(duì)話,只要寫清楚對(duì)話內(nèi)容和順序,就能準(zhǔn)確地把臺(tái)詞分給每一個(gè)人。
唯一美中不足的是,它暫時(shí)還不理解罐頭笑聲是啥意思,當(dāng)我想要在視頻結(jié)尾加一段罐頭笑聲的時(shí)候,它給我生成了真正的,罐頭。
無傷大雅。
![]()
除了對(duì)口型同步之外,Seedance 1.5 Pro還能做到多分鏡音畫同步。
而且因?yàn)樗罡咧С置?2秒的視頻生成,所以你甚至可以直接用參考圖+文生分鏡,roll一個(gè)小小的廣告短片。
這,是我給它的提示詞。
![]()
而這,是它給我的視頻,聲音效果和細(xì)節(jié)的準(zhǔn)確性都非常在線,幾乎已經(jīng)可以說是一個(gè)80%的成品了。
毫不夸張地說,能省下至少一半做片子的時(shí)間。
或者,也可以讓它直接完成一段12秒的劇情。
我讓瑞克和莫蒂倆人致敬了一把無間道的經(jīng)典天臺(tái)片段。
提示詞長(zhǎng)這樣:
人物聲音設(shè)定- Morty(左):聲音偏高、發(fā)顫,語(yǔ)速不穩(wěn),帶明顯猶豫與恐懼,氣息短,像硬擠出來的勇氣。 Rick(右):低沉沙啞,語(yǔ)速快而不耐煩,帶嘲諷,尾音下壓,充滿控制感。 Shot 1:中景 天臺(tái)。Morty僵直站立,直視Rick。 Morty: “I wanna be a good person.” Shot 2:特寫 Rick半側(cè)臉近景。 Rick(冷笑): “Oh yeah? go tell the cops, Morty.” Shot 3:快切 a 大全景:Rick舉起手槍 b 大特寫:槍口貼近Morty額頭,無臺(tái)詞。 Shot 4:大全景,Rick持槍抵住Morty頭頂,鏡頭環(huán)繞,風(fēng)聲呼嘯。
整個(gè)過程中,無論是臺(tái)詞還是音效,匹配的都很恰到好處。
而且鏡頭切換和運(yùn)鏡也有點(diǎn)東西,很酷。
二.中文和方言能力
第二個(gè),就是中文和方言的輸出能力。
其實(shí)我測(cè)下來發(fā)現(xiàn),1.5 Pro的多語(yǔ)言能力很拿得出手,英語(yǔ)日語(yǔ)韓語(yǔ)西語(yǔ)都能無障礙輸出。
具體效果可以看下面這個(gè)合集:毛利小五郎用各種語(yǔ)言,在線搶柯南臺(tái)詞,真相只有一個(gè)。
但我要重點(diǎn)說的還不是多語(yǔ)言能力,因?yàn)槲矣X得,中文和方言能力才是它最強(qiáng)的技能點(diǎn)。
在所有模型中,seedance 1.5pro的方言能力是斷檔的強(qiáng)。
它是我見過的第一個(gè),說粵語(yǔ)說得有點(diǎn)韻味的模型。
即使還做不到最地道的程度,但氛圍感已經(jīng)出來了。。。
除了粵語(yǔ)之外,四川話,上海話,東北話,臺(tái)灣腔,也都能自如切換。
所以,你就可以讓上海人和北京人用自己的方言吵架,也可以在東北話和臺(tái)灣腔之間無縫切換。
考慮到公眾號(hào)里最多只能放十條視頻,我依然是做了個(gè)方言合集,大家可以點(diǎn)進(jìn)來感受一下。
怎么樣,是不是還挺有那味兒的。
說不同語(yǔ)言跟方言這里也有一個(gè)小技巧,就是,要給它原版語(yǔ)言或者方言的提示詞,比如英文版的真相只有一個(gè)就得跟它說,There’s only one truth,說粵語(yǔ)的話,就要這樣寫:呢個(gè)世界上有一種雀?jìng)S冇腳嘅。
不會(huì)粵語(yǔ)也沒關(guān)系,直接和ChatGPT幫你翻譯就行,就像這樣。
![]()
三.情感表現(xiàn)力
Seedance 1.5 Pro這次還有一個(gè)大幅度提升的能力,就是情感表現(xiàn)力。
哪怕是同一句臺(tái)詞,規(guī)定不同的情境之后,也能說出完全不一樣的感覺。
提示詞非常簡(jiǎn)單,就一句話。
![]()
這個(gè)表演合集,大家也可以品鑒一下。
我自己看這些表演的時(shí)候,有好幾個(gè)瞬間都感覺,我是不是正在看什么豪門真假千金的短劇片段。
因?yàn)樗娴哪苎莩鰜碜旖穷澏叮宦暲浜撸ばθ獠恍Γ劬\里咕嚕轉(zhuǎn),倒吸一口涼氣,這些短劇中熟悉而微妙的細(xì)節(jié)。
而且聲線也會(huì)跟著不同的情緒變化,很有代入感。
就感覺,Seedance 1.5 Pro已經(jīng)可以進(jìn)軍短劇界了。。。
而且更強(qiáng)的是,哪怕我只是給它一句話,不加別的提示,它也能夠根據(jù)這句話的內(nèi)容,給我配一段合適的表演,直接一條過。
![]()
就是,現(xiàn)實(shí)中的演員都沒這么省心好吧。。。
而且這個(gè)情感表現(xiàn)力不只是體現(xiàn)在臺(tái)詞上,而是包括配樂,音效,運(yùn)鏡,各種能力和細(xì)節(jié)綜合起來,最終實(shí)現(xiàn)你想要的效果。
比如這個(gè)第一視角駕駛戰(zhàn)斗機(jī)的片段,所有的聲畫元素都綜合起來,就是一段效果非常豐富,非常有沉浸感的視頻。
之前要在剪輯軟件里倒騰一大通,現(xiàn)在一鍵直出。
沒什么可說的,Seedance NB。。。
這次會(huì)上,他們還提到了一個(gè)很有意思的能力,沒上線,但我非常期待,就是draft樣片。
什么意思呢,就是在成片之前,先給你一個(gè)較低分辨率的draft樣片,讓你可以鎖定這個(gè)畫面中的關(guān)鍵元素,等你修改完確認(rèn)沒問題之后,它再幫你生成高清晰度的成片。
也就是,減少抽卡次數(shù),精準(zhǔn)鎖定效果,實(shí)在是一個(gè)對(duì)于錢包和時(shí)間都非常友好的功能。
快上吧孩子已經(jīng)等不及了。。。
最后,來總結(jié)一下這次的Seedance 1.5 Pro更新。
雖然最近視頻模型集體從默片時(shí)代跨入有聲時(shí)代,可以說是前狼后虎,但在這種局面之下,我覺得,1.5 Pro依然很能打。
它的優(yōu)勢(shì),除了能夠滿足方言這種更加細(xì)粒度和個(gè)性化的需求之外,更重要的是,真正讓聲畫的結(jié)合做到了1+1大于2的效果。
我們都說,電影是聲畫的藝術(shù)。
這次的更新,就讓畫面,臺(tái)詞,音效,節(jié)奏,情緒,都能很好地融合在一個(gè)視頻里,輸出一個(gè)廣告級(jí),甚至是影視級(jí)別的成品。
這意味著,生成出來的不再是只有畫面加上簡(jiǎn)單音效的半成品,而是可以直接上剪輯臺(tái)的素材。
這對(duì)于AI視頻的工業(yè)化,是一個(gè)巨大的提升。
再往上一層,甚至對(duì)于AI視頻的創(chuàng)作方式和理念來說,也是一個(gè)巨大的提升。
以后的創(chuàng)作,就不再只是考慮畫面如何了,聲音也會(huì)一起納入考慮的范疇。
就會(huì)出現(xiàn)新的提示詞方式、新的視頻形態(tài)、新的制作流程,進(jìn)而引發(fā),新的生產(chǎn)力變革。
新的風(fēng)暴已經(jīng)出現(xiàn)。
而我真的,非常期待。
以上,既然看到這里了,如果覺得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克、水杉
>/ 投稿或爆料,請(qǐng)聯(lián)系郵箱:wzglyay@virxact.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.