![]()
文 / 道哥
來源 / 智百道
年關將至,AI行業的熱鬧不減反增,快手旗下視頻生成大模型可靈放出大招,直接端上靈感周,從12月1號到5號每天都要上新。
仔細來看,這次更新涵蓋了多模態圖片、視頻大模型、數字人、音效生成、主體庫等新品。
特別的是第一天更新的可靈AI視頻“O1模型”,更是號稱“全球首個統一多模態視頻模型”。
熟悉的人都知道之前可靈大模型名稱都是以數字命名,比如,可靈1.6、2.5turbo,這次卻起名為O系列,這里的O是OMNI的O,意思就是全部、所有。
在海外網友更是用“insane”來大贊可靈O1。
![]()
那么具體體驗究竟如何?
01 實測可靈O1多模態模型
在我看來,相比起之前的可靈2.5turbo,可靈O1最凸顯的特點是交互性的便捷度再提升——之前可靈圖片2.1圖片模型與視頻2.5模型都是在不同的頁面,當你想圖片編輯和視頻編輯時需要不停切換,現在有了O1,用戶只需要通過O1一個入口就可以實現跨模態任務創作,無需在不同工具間切換。
難怪有人評價,該技術實現了“像P圖一樣P視頻”的操作體驗。
點進去O1入口后,你可以在底部選擇切換視頻或圖片模型。
假如我們切到視頻模型,會發現有四個負責提升內容一致性的快捷功能,被羅列在了可靈O1界面頂部。我們可以先選功能再生成,AI會更有針對性,生成效果也更穩健流暢。
敲黑板,這個功能是創作者的福音。
專業創作者動輒創作長達數十分鐘的內容,對內容的可控性要求一直很高。沒有人臉一致性,廣告商、電影制作人等商業創作者就難以將視頻生成模型當作可靠工具使用。
其中一個快捷功能為主體庫。這就好比內容生成的參考系,讓AI別隨意發揮,而是按照主體庫的樣本進行創作。你不光可以選擇官方主體也可以自行創建主體庫。
先從官方主體庫來看,包含各種熱門素材,人物欄里,直接給了魯迅和林黛玉的影視形象,動物則有這兩年在網上很火的安卓貓、水豚、香蕉貓等。繼續翻,主體還延伸到了道具、服飾、場景和特效,基本把一支視頻里會需要用到的主要元素,都整理成了可復用的素材。
對創作者來說,可以把制作好的素材存儲起來,方便隨時調用,而不是從文件夾里從新上傳素材,再制作,效率大有改善。
這次更新最實用的功能,是視頻編輯,分別是指令變化和視頻參考。因為以前的可靈,是完全沒有辦法對視頻進行編輯或參考的,但是這次,終于解決了這個痛點。
那么,可靈作為編輯的能力如何?
![]()
以視頻生成這是創作者實際場景中十分實用的功能,我們以日常生活場景為例,輸入指令,“布偶貓和兔子玩鬧,卡通版”,可靈可以按照指令生成順滑的視頻。
以視頻增加與修改來看,我還想將視頻中的兔子元素替換成《瘋狂動物城》中的朱迪,還是這個界面,我直接導入視頻,與朱迪兔的圖片,輸入指令“把視頻里的兔子換成朱迪”即可。
![]()
整體體驗下來,O1多主體元素的鏡頭切換里確實能穩住一致性,局部編輯也很自然,日常修瑕疵完全夠用,還能生成10s長視頻,對長視頻創作者非常友好。特別的是,生成視頻時長可以從3秒到10秒,比例也包含9:16、1:1、16:9。
圖片生成的話,只需要在頁面底部切換模型即可。
讓小編十分欣喜的是,可靈生成模式支持1K、2k,涵蓋主流常用比例,當然為了避免開盲盒,你也可以選擇生成的數量,從中選取自己最滿意的即可。
![]()
![]()
02 音畫同步,告別無聲視頻
這次靈感周的重磅更新還有可靈2.6主打音效同步,也就是說,我們終于不用只看無聲視頻了!
現在用可靈2.6,輸入文字不僅能生成畫面,還能自動配上雙語對話、環境音效甚至背景音樂!小編想讓伏地魔臣服于九頭蛇組織,輸入prompt“伏地魔拿著魔杖打斗,然后站立,大喊九頭蛇萬歲”,最后實際效果如下。你會發現伏地魔中文發音字正腔圓,整個畫面也比較流暢,細膩。
很多人會拿可靈和國外的Sora 2比,但對我們來說,可靈2.6有兩個本土化優勢。
第一、就像剛才說的中文能力好。
相比 Sora 對中文支持的捉襟見肘,常出現發音錯誤,作為土生土長的中國模型,可靈2.6 對中文語境和發音的把控游刃有余。
第二、成本更低:生成10秒1080P視頻,可靈只要2元,Sora要5元,相當于打了4折。
據了解,未來,可靈還會支持4K超高清和自定義聲音,說不定明年,普通人就能以很低的成本將自己的創意落地為一部AI電影。
當然,還有讓品牌與主播看到新機遇的數字人模型Avatar 2.0。
以往做個數字人視頻,或許得找專業的數字人團隊,成本也高。現在只需一張人物照片、一段音樂音頻,就能一鍵生成長達5分鐘的唱歌視頻。
從可靈官方發布的視頻來看,和以前那些只會僵硬對口型的數字人相比,現在的數字人更活靈活現,能隨著旋律自然地揚眉、眼神含笑、肢體起伏。
此外,Avatar 2.0在表情控制上有了進步。以前AI人物的表情更像一個假人,現在的數字人能流露自然情緒。動作設計也更靈活了,不只是頭部唇同步,全身表演,像肩膀聳動、手勢強調,都能和音樂完美契合。測試基準顯示,在375個“參考圖–音頻–文本提示”樣例中,該模型在復雜歌唱場景下的響應準確率高達90%以上,不管是真人、AI生成圖像,還是動物或卡通角色都能支持。
從背后的技術細節來拆分,Avatar 2.0的厲害之處在于它的多模態導演模塊(MLLM Director)。這個模塊把多模態大語言模型(MLLMs)融合在一起,能把用戶輸入的圖像、音頻和文本提示這三要素,變成一條連貫的故事線。系統先從音頻里提取語音內容和情感軌跡,同時,從單張照片里識別人像特征和場景元素,再結合用戶給的文本,最后,通過文本跨注意力層把信息注入視頻擴散模型,生成全局一致的“視頻”。
03 可靈——快手的新增長曲線
PMF一直是AI行業的熱詞,資本市場有關AI技術能否賺錢,何時賺錢的爭論從未停歇。
程一笑今年早些時候曾判斷,科技行業的競爭,關鍵就在于誰能夠把AI技術和具體應用場景結合得更好。快手能否將AI質地打磨得更加扎實,自然也就成了檢驗其演進方向的重要標尺。
與阿里、騰訊、字節偏向構建基礎設施的策略不同,快手展現出了更強的實用主義色彩。 去年,快手便聚焦視頻生成發布了可靈AI,發布時間甚至比字節的即夢AI早了兩個月。
也正是因為更務實的戰略預判,這場AI燒錢競賽中,一直積極布局AI技術的快手仿佛是個“局外人”,因為已經在AI視頻賽道見到了真金白銀。
在快手三季報中,AI更是貫穿全篇,被提及多達48次,頻率遠超前兩個季度。
除了B端創作者,可靈 AI大模型目前已深入應用于廣告素材生成、短劇制作、智能客服等多個核心業務場景,并持續創造可觀收入。
財務數據直觀地印證了這一增長態勢,可靈AI的收入呈現爆發式增長,2025年第一季度收入為1.5億元,第二季度躍升至超2.5億元,第三季度更突破3億元。快手預計,該業務全年收入有望逼近10億元,較年初目標4.3 億元實現翻倍增長。
這清晰地表明,AI 技術與快手主營業務之間已形成強大的協同效應,其商業化路徑日益清晰。
從機構的看法來看,AI已經不再是一個單點工具,更像是一個影響全生態的發動機。
西部證券認為,在生成式AI應用加速落地的背景下,快手基于多模態大模型技術積極迭代軟硬件,或將進一步促進公司主營業務持續增長,同時,公司生成式AI應用不斷推進技術落地和商業化也有望為公司帶來新的增量空間。
12月2日,港股上市公司快手盤初沖高超5%,表現強勁,截至發稿前,65.35港元/股。這一積極市場反應的背后,是公司在人工智能領域的持續進步獲得市場認可。
在AI敘事祛魅的當下,市場不再盲目迷信概念,而是開始審視落地能力與商業回報。
快手可靈O1的發布,不僅是一次產品迭代,更像是對 AI 視頻賽道進入深水區的一種回應,企業追求的不僅要技術炫酷,更要從交互、成本、應用場景上解決實際痛點。 在這場關于未來的競賽中,堅持實用主義的快手,在AI視頻賽道已經領先一個身位。
*題圖由AI生成
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.