上周我趕赴北京新聞廣播,做了一期關(guān)于AI生成視頻的節(jié)目。
我們討論的核心問(wèn)題是,當(dāng)前人工智能生成視頻的技術(shù)已發(fā)展到何種程度?是否已能實(shí)現(xiàn)以假亂真?
為了直觀展現(xiàn)這一技術(shù)現(xiàn)狀,我和主持人設(shè)計(jì)了一個(gè)小互動(dòng)環(huán)節(jié)。我拿出來(lái)手機(jī),給她展示了三段視頻,請(qǐng)她分辨其中哪些是實(shí)拍內(nèi)容,哪些是AI生成的。
![]()
圖注:你們猜猜哪個(gè)是AI數(shù)字人?
主持人認(rèn)真觀察后,給出了答案,我告訴她完全錯(cuò)誤。她當(dāng)時(shí)十分震驚,坦言道:“咱們認(rèn)識(shí)這么久,我居然沒(méi)看出來(lái)這是你的數(shù)字人。”
這個(gè)小互動(dòng)很能說(shuō)明問(wèn)題:相比過(guò)去兩年,如今AI生成視頻的技術(shù)已有了質(zhì)的飛躍。借助擴(kuò)散模型的逐幀優(yōu)化和NeRF技術(shù)的3D場(chǎng)景構(gòu)建,生成內(nèi)容的連貫性和真實(shí)感大幅提升。連專(zhuān)業(yè)媒體人都難以分辨,足以證明技術(shù)進(jìn)步之快。
這也正是我們今天探討這個(gè)話題的必要性所在——當(dāng)AI生成視頻的逼真度達(dá)到如此水平,其技術(shù)影響與應(yīng)用邊界都值得深入關(guān)注。
那么,AI生成視頻到底將應(yīng)用在哪些領(lǐng)域?未來(lái)我們將如何厘清AI生成視頻和現(xiàn)實(shí)創(chuàng)作的邊界?人機(jī)協(xié)作的范式應(yīng)該是怎樣的?
針對(duì)這些話題,我們展開(kāi)了較為深度的對(duì)談。以下是對(duì)談干貨整理,今天也分享出來(lái),供大家參考。
1、主持人:近年來(lái),AI視頻生成技術(shù)的發(fā)展令人矚目。請(qǐng)您先為我們講講,從技術(shù)層面來(lái)看,目前AI視頻生成取得了哪些重大突破?
丁道師:簡(jiǎn)單來(lái)說(shuō),這兩年的突破,主要在于對(duì)真實(shí)世界的理解。
舉個(gè)簡(jiǎn)單的例子,以Sora為例,有人咬了一口面包,面包上出現(xiàn)了咬掉的缺口,而之前的視頻生成工具不具備這樣的理解真實(shí)世界的能力。吃一口面包,面包缺了一塊角,這就是咱們真實(shí)世界的物理規(guī)則,現(xiàn)在居然被Sora理解并且呈現(xiàn)了出來(lái)。
再舉個(gè)例子,當(dāng)你扔一個(gè)球時(shí),它會(huì)沿著一個(gè)拋物線軌跡飛行,并最終落地。Sora可以模擬這個(gè)過(guò)程,考慮到重力、空氣阻力以及球的初始速度和角度。這是以往的同類(lèi)型產(chǎn)品,所不具備的。
技術(shù)層面的變化,帶來(lái)了應(yīng)用場(chǎng)景的突破。舉個(gè)例子,去年央視推出了國(guó)內(nèi)首部文生視頻AI動(dòng)畫(huà)片《千秋詩(shī)頌》,引發(fā)了巨大關(guān)注。在同等預(yù)算條件下,按照傳統(tǒng)動(dòng)畫(huà)制作流程計(jì)算,制作《千秋詩(shī)頌》至少需要8個(gè)月時(shí)間。而在我國(guó)自主AIGC技術(shù)支撐以及總臺(tái)海量視音頻的語(yǔ)料庫(kù)助力下,依托大模型,該片的制作周期縮短至4個(gè)月。相較于傳統(tǒng)動(dòng)畫(huà)制作,大大提升了制作效率。
還有現(xiàn)在熱門(mén)的一個(gè)賽道--短劇,也開(kāi)始大規(guī)模用AI參與制作了。
2、主持人:在生成較長(zhǎng)時(shí)長(zhǎng)的視頻時(shí),AI 常出現(xiàn)內(nèi)容不連貫、邏輯混亂等問(wèn)題,AI幻覺(jué)在視頻生成上可能更明顯,您認(rèn)為當(dāng)前阻礙 AI 視頻生成進(jìn)一步發(fā)展的最大技術(shù)難點(diǎn)是什么?是模型的訓(xùn)練效率、對(duì)復(fù)雜場(chǎng)景和動(dòng)作的精準(zhǔn)模擬,還是其他方面?
丁道師:確實(shí),AI如同人類(lèi)一樣,它也會(huì)出錯(cuò)、出現(xiàn)工作懈怠,結(jié)果具有一定隨機(jī)性。這就要求我們學(xué)會(huì)管理AI,以應(yīng)對(duì)未來(lái)的無(wú)限可能。
關(guān)于AI生產(chǎn)視頻的技術(shù)難題,如果在以前,我們會(huì)說(shuō)訓(xùn)練效率的低下限制了模型對(duì)復(fù)雜場(chǎng)景的學(xué)習(xí)能力,復(fù)雜場(chǎng)景的高維度需求又反過(guò)來(lái)加劇了生成效率與質(zhì)量的矛盾,同時(shí)還存在 “時(shí)空一致性”“語(yǔ)義邏輯” 等更底層的技術(shù)鴻溝。
現(xiàn)在看來(lái),問(wèn)題只剩下了一個(gè),那就是“時(shí)間”。隨著時(shí)間的推移,我們現(xiàn)在看到的諸多問(wèn)題,都會(huì)解決。而且這個(gè)時(shí)間不用特別久,AI生產(chǎn)視頻的能力幾乎每個(gè)月都在以肉眼可見(jiàn)的速度提升。
3、主持人:從百度“蒸汽機(jī)”、字節(jié)跳動(dòng)即夢(mèng)、快手可靈AI,到智譜清影、生數(shù)科技Vidu、MiniMax海螺AI,互聯(lián)網(wǎng)巨頭與初創(chuàng)企業(yè)都相繼布局AI視頻生成模型。還有在電影工業(yè)中的應(yīng)用。快手上個(gè)月發(fā)布財(cái)報(bào)顯示,可靈AI的收入在二季度超過(guò)2.5億元,相比一季度大幅增長(zhǎng)。而且可靈比一眾大語(yǔ)言模型更早在國(guó)內(nèi)跑通付費(fèi)模式。您怎么看AI視頻生成的商業(yè)變現(xiàn)能力?
丁道師:AI 視頻生成商業(yè)變現(xiàn)的核心邏輯在于兩點(diǎn):第一,它能否比傳統(tǒng)視頻制作大幅提升效率;第二,它能否實(shí)現(xiàn)比傳統(tǒng)視頻制作更高的品質(zhì)。
從第一點(diǎn)來(lái)看,AI 視頻生成在效率上的優(yōu)勢(shì)已毋庸置疑,提升幅度遠(yuǎn)超傳統(tǒng)方式;但第二點(diǎn) “品質(zhì)更高”,目前仍需打個(gè)問(wèn)號(hào)。不過(guò)當(dāng)下的趨勢(shì)是,效率優(yōu)勢(shì)在不斷強(qiáng)化,而品質(zhì)不足的難點(diǎn)也在逐步解決。綜合這兩點(diǎn)來(lái)看,AI 視頻生成已具備大規(guī)模商業(yè)變現(xiàn)的可能性。
那么未來(lái)哪些領(lǐng)域會(huì)大規(guī)模應(yīng)用 AI 生成視頻呢?
第一個(gè)領(lǐng)域是影視制作,涵蓋長(zhǎng)視頻、短視頻及短劇制作。這不僅是大型公司的機(jī)會(huì),比如央視之前制作的《千秋詩(shī)頌》,河南也正計(jì)劃用人工智能制作《愚公移山》相關(guān)長(zhǎng)電影,目前預(yù)告片已經(jīng)出來(lái);許多小型公司、小團(tuán)隊(duì)(此前提到過(guò)不少專(zhuān)注短劇制作的),也已在大規(guī)模使用付費(fèi) AI 軟件制作相關(guān)視頻。
第二個(gè)重要領(lǐng)域是游戲與動(dòng)漫。游戲制作向來(lái)耗時(shí)漫長(zhǎng),而如今即便是大型 3A 游戲制作中的 CG 動(dòng)畫(huà)、各類(lèi)交互動(dòng)畫(huà),都可借助人工智能生成,至少能通過(guò) AI 進(jìn)行輔助制作。
這里我再補(bǔ)充一個(gè)案例:去年我在上海出差時(shí),曾在一場(chǎng)活動(dòng)中見(jiàn)到知名導(dǎo)演陸川,當(dāng)時(shí)他就明確表達(dá)了對(duì)用人工智能制作電影的濃厚興趣。這一細(xì)節(jié)也從側(cè)面說(shuō)明,專(zhuān)業(yè)影視制作領(lǐng)域已開(kāi)始嘗試 AI 技術(shù)的應(yīng)用。
一旦影視娛樂(lè)、電子游戲、動(dòng)漫,以及我們?nèi)粘5膭?chuàng)意營(yíng)銷(xiāo)、廣告制作等領(lǐng)域,都開(kāi)始大規(guī)模使用 AI 生成視頻,那么這個(gè)領(lǐng)域的商業(yè)變現(xiàn)空間,將遠(yuǎn)超當(dāng)前呈現(xiàn)的規(guī)模。現(xiàn)在我們覺(jué)得快手某季度 AI 相關(guān)業(yè)務(wù)營(yíng)收 2.5 億元已是了不起的成績(jī),但三年后再看,這個(gè)數(shù)字后面加個(gè) 0 可能都不止。
4、主持人:隨著AI視頻生成技術(shù)的普及,辨別視頻真假成為了重要課題。在圖像和視頻分析中,有哪些特征或指標(biāo)可以作為判斷視頻是否由AI生成的依據(jù)?在日常生活中,沒(méi)有專(zhuān)業(yè)工具的情況下,如何通過(guò)一些簡(jiǎn)單的方法來(lái)初步判斷視頻的真實(shí)性呢?
丁道師:截止今天,人工智能生成的視頻其實(shí)還是比較容易識(shí)別的。其動(dòng)作畫(huà)面整體仍存在一定的生硬感與粗糙感,甚至?xí)霈F(xiàn)一些基本的常識(shí)性錯(cuò)誤。
舉個(gè)例子,前段時(shí)間某品牌生成的AI圖片中,花生被畫(huà)成生長(zhǎng)在地面上,但實(shí)際花生是生長(zhǎng)在地下的,這明顯違背了基本的科學(xué)常識(shí)。再比如在細(xì)節(jié)方面,其精細(xì)度不足:比如繪制的人物形象,可能存在畸形的情況,或者出現(xiàn)七個(gè)手指頭;又或者在畫(huà)面動(dòng)態(tài)展示時(shí),人物的頭發(fā)、衣物等會(huì)突然消失,諸如此類(lèi)。
目前,這類(lèi)AI生成視頻其實(shí)還是比較容易識(shí)別的。但正如我們之前所討論的,隨著時(shí)間的推移,未來(lái)AI技術(shù)必定能生成足以以假亂真、肉眼無(wú)法識(shí)別的內(nèi)容。屆時(shí),不僅肉眼無(wú)法分辨,甚至可能無(wú)法通過(guò)工具識(shí)別,這將是一個(gè)巨大的挑戰(zhàn)。因此,相關(guān)的監(jiān)管措施必須及時(shí)跟上。
5、主持人:相應(yīng)的監(jiān)管如何跟上呢?
丁道師:從今年9月1日起,由國(guó)家網(wǎng)信辦、工信部、公安部、廣電總局聯(lián)合制定的《人工智能生成合成內(nèi)容標(biāo)識(shí)辦法》正式落地。
敲重點(diǎn)。
第一、以后AI生成的各種東西,像文字、圖片、視頻等,都得 “亮明身份”,會(huì)加上明顯或暗藏的標(biāo)識(shí),讓大家知道它是AI造的。
第二、不管是做AI內(nèi)容的平臺(tái),還是傳播這些內(nèi)容的平臺(tái),都有各自加標(biāo)識(shí)、核驗(yàn)標(biāo)識(shí)的責(zé)任,一環(huán)扣一環(huán)規(guī)范 AI內(nèi)容傳播。
第三、要是沒(méi)按這辦法來(lái),網(wǎng)信、電信、公安、廣電這些部門(mén)會(huì)按各自職責(zé),依據(jù)相關(guān)法規(guī)處理。
從制作到傳播,再到相關(guān)處罰,都明確規(guī)范了AI生成內(nèi)容的規(guī)范,以后那些用AI生成的內(nèi)容,都會(huì)標(biāo)注類(lèi)似“本文/本圖/本視頻涉及人工智能生成內(nèi)容,請(qǐng)仔細(xì)辨別”這樣的提示,這一標(biāo)注可能十分醒目,讓觀眾一眼就能識(shí)別,避免被誤導(dǎo),明確所看內(nèi)容并非通過(guò)傳統(tǒng)拍攝、寫(xiě)作等方式產(chǎn)出。
6、主持人:您對(duì)AI視頻生成的未來(lái)發(fā)展有哪些展望?
丁道師:我期待的,是一種“人機(jī)協(xié)同”的模式。既不否定AI的價(jià)值,也不讓AI掌管一切。
應(yīng)構(gòu)建這樣的平衡機(jī)制。創(chuàng)作前期,人類(lèi)主導(dǎo)創(chuàng)意構(gòu)思,確定故事內(nèi)核、人物設(shè)定與整體風(fēng)格,AI提供創(chuàng)意啟發(fā)與素材參考;創(chuàng)作中期,AI快速生成初稿、分鏡等,人類(lèi)把控質(zhì)量,對(duì)情節(jié)邏輯、情感表達(dá)等進(jìn)行優(yōu)化;創(chuàng)作后期,人類(lèi)審核內(nèi)容,確保合規(guī)與文化價(jià)值,AI輔助完成剪輯、特效等基礎(chǔ)工作,以此實(shí)現(xiàn)人機(jī)優(yōu)勢(shì)互補(bǔ)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.