網易首頁 > 網易號 > 正文申請入駐

像修圖一樣修視頻？實測快手可靈 O1，這才是創作者想要的神器

2025-12-19 11:15:50　來源: 節點AI

山東舉報

分享至

文 / 道哥

來源 / 智百道

年關將至，AI行業的熱鬧不減反增，快手旗下視頻生成大模型可靈放出大招，直接端上靈感周，從12月1號到5號每天都要上新。

仔細來看，這次更新涵蓋了多模態圖片、視頻大模型、數字人、音效生成、主體庫等新品。

特別的是第一天更新的可靈AI視頻“O1模型”，更是號稱“全球首個統一多模態視頻模型”。

熟悉的人都知道之前可靈大模型名稱都是以數字命名，比如，可靈1.6、2.5turbo，這次卻起名為O系列，這里的O是OMNI的O，意思就是全部、所有。

在海外網友更是用“insane”來大贊可靈O1。

那么具體體驗究竟如何？

01 實測可靈O1多模態模型

在我看來，相比起之前的可靈2.5turbo，可靈O1最凸顯的特點是交互性的便捷度再提升——之前可靈圖片2.1圖片模型與視頻2.5模型都是在不同的頁面，當你想圖片編輯和視頻編輯時需要不停切換，現在有了O1，用戶只需要通過O1一個入口就可以實現跨模態任務創作，無需在不同工具間切換。

難怪有人評價，該技術實現了“像P圖一樣P視頻”的操作體驗。

點進去O1入口后，你可以在底部選擇切換視頻或圖片模型。

假如我們切到視頻模型，會發現有四個負責提升內容一致性的快捷功能，被羅列在了可靈O1界面頂部。我們可以先選功能再生成，AI會更有針對性，生成效果也更穩健流暢。

敲黑板，這個功能是創作者的福音。

專業創作者動輒創作長達數十分鐘的內容，對內容的可控性要求一直很高。沒有人臉一致性，廣告商、電影制作人等商業創作者就難以將視頻生成模型當作可靠工具使用。

其中一個快捷功能為主體庫。這就好比內容生成的參考系，讓AI別隨意發揮，而是按照主體庫的樣本進行創作。你不光可以選擇官方主體也可以自行創建主體庫。

先從官方主體庫來看，包含各種熱門素材，人物欄里，直接給了魯迅和林黛玉的影視形象，動物則有這兩年在網上很火的安卓貓、水豚、香蕉貓等。繼續翻，主體還延伸到了道具、服飾、場景和特效，基本把一支視頻里會需要用到的主要元素，都整理成了可復用的素材。

對創作者來說，可以把制作好的素材存儲起來，方便隨時調用，而不是從文件夾里從新上傳素材，再制作，效率大有改善。

這次更新最實用的功能，是視頻編輯，分別是指令變化和視頻參考。因為以前的可靈，是完全沒有辦法對視頻進行編輯或參考的，但是這次，終于解決了這個痛點。

那么，可靈作為編輯的能力如何？

以視頻生成這是創作者實際場景中十分實用的功能，我們以日常生活場景為例，輸入指令，“布偶貓和兔子玩鬧，卡通版”，可靈可以按照指令生成順滑的視頻。

以視頻增加與修改來看，我還想將視頻中的兔子元素替換成《瘋狂動物城》中的朱迪，還是這個界面，我直接導入視頻，與朱迪兔的圖片，輸入指令“把視頻里的兔子換成朱迪”即可。

整體體驗下來，O1多主體元素的鏡頭切換里確實能穩住一致性，局部編輯也很自然，日常修瑕疵完全夠用，還能生成10s長視頻，對長視頻創作者非常友好。特別的是，生成視頻時長可以從3秒到10秒，比例也包含9:16、1:1、16:9。

圖片生成的話，只需要在頁面底部切換模型即可。

讓小編十分欣喜的是，可靈生成模式支持1K、2k，涵蓋主流常用比例，當然為了避免開盲盒，你也可以選擇生成的數量，從中選取自己最滿意的即可。

02 音畫同步，告別無聲視頻

這次靈感周的重磅更新還有可靈2.6主打音效同步，也就是說，我們終于不用只看無聲視頻了！

現在用可靈2.6，輸入文字不僅能生成畫面，還能自動配上雙語對話、環境音效甚至背景音樂！小編想讓伏地魔臣服于九頭蛇組織，輸入prompt“伏地魔拿著魔杖打斗，然后站立，大喊九頭蛇萬歲”，最后實際效果如下。你會發現伏地魔中文發音字正腔圓，整個畫面也比較流暢，細膩。

很多人會拿可靈和國外的Sora 2比，但對我們來說，可靈2.6有兩個本土化優勢。

第一、就像剛才說的中文能力好。

相比 Sora 對中文支持的捉襟見肘，常出現發音錯誤，作為土生土長的中國模型，可靈2.6 對中文語境和發音的把控游刃有余。

第二、成本更低：生成10秒1080P視頻，可靈只要2元，Sora要5元，相當于打了4折。

據了解，未來，可靈還會支持4K超高清和自定義聲音，說不定明年，普通人就能以很低的成本將自己的創意落地為一部AI電影。

當然，還有讓品牌與主播看到新機遇的數字人模型Avatar 2.0。

以往做個數字人視頻，或許得找專業的數字人團隊，成本也高。現在只需一張人物照片、一段音樂音頻，就能一鍵生成長達5分鐘的唱歌視頻。

從可靈官方發布的視頻來看，和以前那些只會僵硬對口型的數字人相比，現在的數字人更活靈活現，能隨著旋律自然地揚眉、眼神含笑、肢體起伏。

此外，Avatar 2.0在表情控制上有了進步。以前AI人物的表情更像一個假人，現在的數字人能流露自然情緒。動作設計也更靈活了，不只是頭部唇同步，全身表演，像肩膀聳動、手勢強調，都能和音樂完美契合。測試基準顯示，在375個“參考圖–音頻–文本提示”樣例中，該模型在復雜歌唱場景下的響應準確率高達90%以上，不管是真人、AI生成圖像，還是動物或卡通角色都能支持。

從背后的技術細節來拆分，Avatar 2.0的厲害之處在于它的多模態導演模塊（MLLM Director）。這個模塊把多模態大語言模型（MLLMs）融合在一起，能把用戶輸入的圖像、音頻和文本提示這三要素，變成一條連貫的故事線。系統先從音頻里提取語音內容和情感軌跡，同時，從單張照片里識別人像特征和場景元素，再結合用戶給的文本，最后，通過文本跨注意力層把信息注入視頻擴散模型，生成全局一致的“視頻”。

03 可靈——快手的新增長曲線

PMF一直是AI行業的熱詞，資本市場有關AI技術能否賺錢，何時賺錢的爭論從未停歇。

程一笑今年早些時候曾判斷，科技行業的競爭，關鍵就在于誰能夠把AI技術和具體應用場景結合得更好。快手能否將AI質地打磨得更加扎實，自然也就成了檢驗其演進方向的重要標尺。

與阿里、騰訊、字節偏向構建基礎設施的策略不同，快手展現出了更強的實用主義色彩。去年，快手便聚焦視頻生成發布了可靈AI，發布時間甚至比字節的即夢AI早了兩個月。

也正是因為更務實的戰略預判，這場AI燒錢競賽中，一直積極布局AI技術的快手仿佛是個“局外人”，因為已經在AI視頻賽道見到了真金白銀。

在快手三季報中，AI更是貫穿全篇，被提及多達48次，頻率遠超前兩個季度。

除了B端創作者，可靈 AI大模型目前已深入應用于廣告素材生成、短劇制作、智能客服等多個核心業務場景，并持續創造可觀收入。

財務數據直觀地印證了這一增長態勢，可靈AI的收入呈現爆發式增長，2025年第一季度收入為1.5億元，第二季度躍升至超2.5億元，第三季度更突破3億元。快手預計，該業務全年收入有望逼近10億元，較年初目標4.3 億元實現翻倍增長。

這清晰地表明，AI 技術與快手主營業務之間已形成強大的協同效應，其商業化路徑日益清晰。

從機構的看法來看，AI已經不再是一個單點工具，更像是一個影響全生態的發動機。

西部證券認為，在生成式AI應用加速落地的背景下，快手基于多模態大模型技術積極迭代軟硬件，或將進一步促進公司主營業務持續增長，同時，公司生成式AI應用不斷推進技術落地和商業化也有望為公司帶來新的增量空間。

12月2日，港股上市公司快手盤初沖高超5%，表現強勁，截至發稿前，65.35港元/股。這一積極市場反應的背后，是公司在人工智能領域的持續進步獲得市場認可。

在AI敘事祛魅的當下，市場不再盲目迷信概念，而是開始審視落地能力與商業回報。

快手可靈O1的發布，不僅是一次產品迭代，更像是對 AI 視頻賽道進入深水區的一種回應，企業追求的不僅要技術炫酷，更要從交互、成本、應用場景上解決實際痛點。在這場關于未來的競賽中，堅持實用主義的快手，在AI視頻賽道已經領先一個身位。

*題圖由AI生成

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.