![]()
「一個很有主體性的模型」
過去一年,AI圈的詞語通貨膨脹是不是有點太嚴重了?
動輒「又一個DeepSeek時刻」,動輒「開啟XX時代」,隨便一個產品或功能的推出或更新,都要逼著歷史的車輪滾滾向前。
我只想說時光時光慢些吧不要再讓我變老了
最近害我離退休更近一步的是PixVerse R1。
此產品一出,AI視頻的DeepSeek時刻也到來了,無限流時代也開啟了,網友家人們又震撼激動不已了。
于是我也跟風試了試咱們這個全球首個支持最高1080P分辨率通用實時視頻生成模型。
至于這個實時視頻生成是什么意思,我們后面再詳細講。
輸入邀請碼點進來之后,看到PixVerse R1貼心地給我們準備了幾個世界觀模板。
![]()
從龍與地下城到塞爾達,從滑雪潛水到月球行走,文藝b、真假中產、二次元哥姐們以及各類小眾愛好者都能在這里找到自己的一席之地。
![]()
哪怕沒找到,也能輸入提示詞定制屬于自己的世界觀。
不僅能選擇畫面比例,還能選擇視角。
![]()
我嫌麻煩,直接點進那個叫Tokyo Streets的模板,嘗試在東京街頭嘎油嘎油。
按下開始按鈕,視頻就自動開始生成,一個黑衣紅裙女子在川流不息的十字路口漫步。
而且是一直漫步,同時移步換景,周圍的高樓大廈和路人甲都實時生成出來。
![]()
這也是PixVerse R1宣傳的一個重點:無需人工干預,視頻自動無限流生成。
現在因為給大伙免費體驗所以限時5分鐘,技術上可以實現生成到永遠。
一個很有主體性的視頻模型。
然后如果你也有一些,就可以在頁面下方的對話框里輸入提示詞,隨時改變視頻的走向。
![]()
于是我在顱內模擬了一個,該女子假意嘎油(咸魚注:東北話溜達)在日本街頭,實則是準備對安倍晉三進行正義執行,最后被哥斯拉從法院救走的故事。
用PixVerse R1做了一下,生成出了下面這個作品。
和目前市面上流行的Sora 2、Veo 3不一樣,PixVerse R1確實能做到近乎實時生成。
在輸入提示詞的5秒之內,畫面就能隨即改變。
而且不是硬切,畫面是連續的。
但該說不說,問題很多。
比如這個畫面雖然連續,但變化并不絲滑,甚至我覺得都不如疊化轉場。
在短片中有一個情節,是我讓這個女主角打車前往法院,并進入法院內部。
結果這個出租車直接幻影坦克顯形了,法院建筑也平地起高樓了。
![]()
之前我怎么不知道日本基建這么速度?
再比如,人一多就亂套。
當我給女主角委派了山上徹也支線任務,整個畫面就完全崩潰了。
我輸入兩段提示詞:
「安倍晉三從天而降,擋住了女子的去路;女的掏出一把機關槍,掃射安倍晉三。」
生成的這玩意有人能看懂不。
![]()
男的一出現,女的就掉線,但最后男的直接變身女的了,這里面引戰成分太多我沒法思考了。
但總的來講,這已經不是人物一致性能不能保證的問題了,這連人物是不是一個性都沒法保證了。
再再比如我最不懂得一點,就是這個女主角永遠在走路,永遠Citywalk永遠熱淚盈眶
不管是遭受了邪惡公審:
![]()
還是偶遇了路上猛然出現的哥斯拉:
![]()
乃至于被核廢水給襲擊了之后:
![]()
姐們都是假裝一切都未曾發生,把走路作為方法。
且和出現的一切都不發生任何關系,保持清冷感。
哪怕我明確發布指令,跪下來求女主角停下來,她也是師承是枝裕和,步履不停,永遠在路上。
![]()
好似迷失東京了一般。
就這讓我陷入深思:如果你的實時生成,就是把一個元素像貼圖一樣扔進來,和角色也不產生交互,也沒推進任何劇情,這對視頻到底有什么意義?
因為我看到很多博主說,這個PixVerse R1能無限流探索,能玩跑團,我誠心發問,你們是咋用它跑團的?
主角就一直走,看到NPC也不說話,遇到伙伴也不接收,學了技能也不用,最后見到boss也不打,boss也不打他,就一直走。比走線的都愛走。
家人們這不是跑團,這是暴走團。
至于什么人物走形、字體亂碼,我覺得這都是產品初期的小問題,日后肯定是會不斷優化。
但上面這三點是真讓我用起來很難受的。
這時候有人要說了,你用評判傳統AI視頻的方式來對PixVerse R1指指點點,是揚短避長,是不講武德搞偷襲。
因為呢,咱PixVerse R1可不是簡單的AI視頻模型,人家是世 · 界 · 模 · 型。
![]()
啥叫世界模型?說實話我之前沒有仔細研究過,搜了一下發現這詞處于話語權爭奪階段,各個山頭都有自己的說法和產品。
像李飛飛的Marble和Google做的Genie 3,是生成那種可拓展可操縱的3D世界。
英偉達的世界模型屬于toSi項目,生成視頻給機器人看,用來訓練自動駕駛汽車啥啥的。
PixVerse R1呢,則更像是Odyssey-2的路數,就是先限定一個主題,然后生成無限的連續的的視頻,中途還能輸入提示詞隨時修改。
![]()
Odyssey-2的界面
我也用了下Odyssey-2,發現它的問題是,隨著視頻生成,角度越來越仰,人物越來越大,畫面也越來越瘋狂,就跟做夢一樣。
他們自己估計也知道,所以在官網親自找補說,咱們這產品就是用來模擬你的實時夢境的。
![]()
用戶直接一拳打在棉花上。你這都是夢了我還有啥說的,同一個世界模型同一個夢想唄。
但Odyssey-2這種越往后視頻越沒法看的問題,是此類實時互動視頻產品的通病。
就是隨著視頻的不斷生成,本來不起眼的小問題和預測會不斷累積,導致視頻越長越走形。
PixVerse R1的畫質比Odyssey-2好了不少,但在這個問題上沒什么改進。
我打開一個叫Moonwalk的模板,試圖在里面擊碎美國登月的謊言。
一開始畫面還挺流暢自然。
![]()
到了三四分鐘的時候,背景的星空直接像素化了,疑似地球流浪了黑客帝國情景再現了。
![]()
越往后越沒法看這事,PixVerse官網的報告里倒是也承認了。
![]()
PixVerse R1或許是為了把這方面的影響減到最低,對自己使用了大記憶清除術。
具體而言,畫面里這個主角,無論你是讓他跑還是跳,讓他換衣服還是摘眼鏡,是變性還是變形,5秒之內都會回到原樣。
![]()
且無論當我嘗試在畫面中增加任何人物動物地形建筑之后,它確實會生成,但5秒之內也會全部消失。
![]()
然后回到原點,開始漫無目的地行走,等待下一個指令。
咋說呢,之前上面不是提到了好幾個流派的世界模型,它們雖然產物不同,但核心點是統一的,就是要既能實時交互,又保持邏輯上的持續性。
或者至少得朝這個方向努力,不然咋能稱之為一個世界。
PixVerse R1在實時交互這方面,確實是做的不錯的。
但在持續性這方面,它直接通過強行回到起點這個行為,把需要解決的麻煩繞過去了。
對吧,咱不是沒給你生成這個那個的,也不是對后面沒影響,只是它自己消失不見了,咱也不知道咋回事,但咱這個模型是持續的無限流的一直生成到世界末日的。
這叫耍賴,兄弟。
你這不就是硬把自己往世界模型這個概念上湊,想通過跟網友之間的信息差彎道超車曲線救國嗎?
看現在這個全網盛贊的狀態,這招還可以。
最后還是中肯地說一下,PixVerse R1有自己的優點。
比如它確實好玩。用別的視頻模型的時候總有一種要生成個什么杰作的上班心態,用PixVerse R1就是純生成,發狠了忘情了不管結果了,就純逗自己玩,挺有樂子的。
而且如果它非得說自己是世界模型,那它還是個少有的咱老百姓能上手用的世界模型,這真世界大同了。
但是在視頻生成能力還處于從夯到拉排行榜的NPC這個階段的時候,就開始搗鼓世界模型,是不是有點沒學會走就開始急著跑,沒好好跑就開始炒了呢?
(本文封面由ChatGPT 生成,純人工寫作)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.