網易首頁 > 網易號 > 正文申請入駐

「敢不敢」勝過「能不能」，萬字解析可靈 AI 的「非典型」突圍路

2026-04-09 19:29:35　來源: 鈦媒體APP

北京舉報

分享至

文 | 極客公園GreekPark

一個不知道什么叫做「去世」的小男孩，想用自己攢下的 15 塊錢，給奶奶燒一部「紙手機」。

這兩天，AI 短片《紙手機》感動了無數網友。在這短短 5 分鐘的時間里，有人想起了離開已久的親人，有人感慨，第一次在 AI 制作的內容中看到了「人世間」。

作品全網播放量破億背后，創作者李婷、楊選和其依托的創作平臺可靈 AI 也在默契地進行某種「驗證」——如果有更好的底層技術作為支撐，人類+AI 的敘事能力，能否被推向新的邊界。

《紙手機》畫面截圖

今年春節過后，可靈 AI 發布了可靈 3.0 系列模型，包括：Video 3.0、Video 3.0 Omni（多模態交互）、Image 3.0 Omni（圖像生成和編輯）。

邁入 3.0 時代的可靈 AI，正以 All-in-One 的一體化架構重塑視頻模型體系，實現多模態輸入與輸出的高度統一。通過在角色一致性、鏡頭語言和多模態融合等維度的底層突破，可靈 3.0 全面打通了涵蓋生成、編輯及后期的影視級全制作鏈路。

如果說《紙手機》的出圈，驗證了今天的視頻生成大模型可以是好內容的「推手」。可靈 AI 的故事，則讓人看到了一個「敢不敢」勝過「能不能」的真實創新樣板。

兩年多前，在 Sora 驚艷世界卻遲遲不落地的真空期，快手可靈憑借超強的戰略直覺與執行力，搶先發布了全球首個用戶可用的 DiT 大模型。

在不久前極客公園創始人張鵬與快手高級副總裁兼可靈 AI 事業部總負責人蓋坤的深度對談中，我們得以窺見這一奇跡背后的「非典型」路徑：早期可靈甚至是在資源受限的情況下，靠著對技術路線的極速押注完成了對硅谷巨頭的側翼包抄。

蓋坤談到一個重要的范式轉移：在大模型這種「單次嘗試代價巨大」的開放世界里，傳統的互聯網「AB 測試」與「賽馬模式」已經失效。蓋坤詳述了可靈「三位一體」的成功公式——即如何將極致的愿景洞察、不設邊界的算法突破與全新的交互介質（如將動作視為一種模態）深度融合。

從可靈 3.0 的 AIO（All-in-One）原生多模態架構，到 Motion Control 對創作控制權的再分配；從對 AI 視頻生成賽道的戰略判斷，到對新內容平臺可能誕生路徑的推演，這場對談不僅回答了「為什么是快手可靈」，也試圖勾勒一個更長遠的問題：

當視頻生成成為重構供給的基礎設施；當模態不斷被拆解、被重組，人類的想象力是否終于可以擺脫專業門檻，被高質量、規模化地呈現？

快手高級副總裁兼可靈 AI 事業部總負責人蓋坤

精彩觀點：

?「敢不敢」是前置條件，如果不決策，連上牌桌的機會都沒有。

? 邏輯有兩點，一個是生存躍遷，這是上頭部牌桌的唯一機會。如果不搏這一把，可靈很可能陷入「平庸-無資源-被淘汰」的負循環。還有一個是「光腳」心態，當時我們本來就是 Nobody。博輸了還是 Nobody，博贏了就徹底改變命運。

? 基座指標要保，但解決新問題才是未來的核心。

? 如果沒有合適的交互介質，連 Pro-C 也控制不了 AI。

? 當規模化、多樣性的好內容多到一定程度，全新的 AI 內容平臺就會誕生。

? 大模型時代改變了游戲規則：一次嘗試的代價巨大（千萬美金起步），且創新是在無限可能的空間里尋找不存在的路徑（如多模態、DiT 架構）。核心能力在于由領軍人物進行頂層技術與業務意志的規劃。這種組織不再靠隨機賽馬，而是靠極強的 Vision（愿景）牽引，在一個茫茫多的可能性中下重注賭對方向。

01 如何從「默默無聞」到「全球首發」

張鵬：首先聊聊可靈 3.0，之前放出的素材反饋非常炸裂。這次的核心亮點應該是 15 秒的長時長、超強的可控性，以及在分鏡轉場層面變得更加簡潔流暢了。

蓋坤：我可以從更長的時間尺度來介紹一下 3.0。我們內部將 3.0 項目稱為 All-in-One（AIO）模型，它是多模態模型思路的延續。

去年 12 月我們發布了兩個階段性模型：可靈 O1 和可靈 2.6。這兩個模型在我們的敘事邏輯中各有分工：

? O1 側重多模態輸入（Input）：允許用戶在文本指令中插入各類非文本文件，來表達文字難以描述的意圖，比如具體的人物形象、細微的動作指令等。

? 2.6 側重多模態輸出（Output）：除了輸出高質視頻，還要同時輸出匹配的音頻（音畫同步）。

我們最初的愿景就是奔著 AIO（All-in-One）去的，但由于技術建設、經驗積累和產品打磨都需要時間，所以我們采取了階段性策略，先分別攻克多模態輸入和輸出的試點。

張鵬：所以 3.0 是基于 O1 的思路演進而來的？

蓋坤：思路一脈相承，但 3.0 是個重新訓練的模型。我們在討論 O1 和 2.6 的時候就意識到，這兩者最終必須合二為一。一個真正的多模態模型，應該既具備強大的多模態輸入能力，又具備音畫同出的輸出能力。

張鵬：這和 OpenAI 的 Sora 最初的思路是一致的。

蓋坤：3.0 是多模態模型演進中的一個完整里程碑。在驗證了 O1（輸入端）和 2.6（輸出端）的技術路線和用戶反饋后，我們推出了現在的 3.0 和 3.0 Omni。

這兩個產品背后其實是同一個模型，但在產品邏輯上我們做了區分。我們發現，雖然 O1 式的多模態輸入可控性極高，對專業創作者很友好，但對普通用戶來說門檻太高了——很多人不知道該如何精準地通過多模態素材來表達意圖，畢竟這種「交互語言」不完全等同于自然語言。

張鵬：所以你們在交互層面做了分層：3.0 負責通用化，Omni 負責專業化。

蓋坤：沒錯。可靈 3.0 遵循傳統的「文生視頻」和「圖生視頻」入口，界面簡潔，符合大眾用戶的使用習慣。但我們也把 Omni 的核心能力（如主體庫）植入了進去，用戶可以通過主體庫來確保視頻中人物形象的一致性。

可靈 3.0 Omni 相當于「極客版」或「專業版」。它的自由度極大，支持輸入的范圍更廣（如視頻參考），控制能力更強，但也需要用戶投入更多的精力去描述和指定。

張鵬：主要區別在于 Input 層的交互邏輯。場景資產現在支持嗎？還是主要針對人物？

蓋坤：目前主要是針對人物的主體庫。

張鵬：在模型初始的時候設定的目標，其實會決定后續的發展走向，所以你們當時的目標是從什么視角出發的？

蓋坤：從可靈誕生的第一天起，我給團隊傳達的愿景就非常明確，這兩年來從未改變。

可靈最早的愿景源于我的一個想象：如果 AI 的視頻生成能力足夠強，我是不是可以獨自把腦海中的電影拍出來？舉個具體的例子，我學生時代非常喜歡《三體》。雖然《三體》已經被影視化過幾次，但我覺得它們都沒有完全呈現出我心目中那種宇宙史詩般的畫面感和敘事張力。我不是導演，也不會操作專業相機，如果 AI 足夠強大，它能幫我把腦海中的視覺圖景和情感表達實現出來嗎？

這種想象泛化開來，就是可靈的愿景：「讓每個人都能成為導演，讓每個人都能拍出自己心中的好故事。」這是我們對市場需求的定義，也是我們要達到的彼岸。

張鵬：我們來梳理一下從可靈 1.0、1.6 到 2.0、3.0 的技術演進。在這個宏大目標下，技術是如何一步步生長過來的？我記得 1.6 或 2.0 版本引入了「首尾幀控制」，這在當時印象很深。如果劃分關鍵版本號背后的技術變革，你會如何歸類？

蓋坤：對于可靈而言，外部自媒體曾總結過兩個關鍵里程碑：一個是可靈 1.0，一個是 O1。這兩個節點確實代表了可靈方向上最重要的 Milestone。

可靈 1.0 的意義是它讓快手從「Nobody」變成了全球大模型領域的一個「正式玩家（Serious Player）」。1.0 達成的核心成就是：全球第一個發布的、用戶真正可用的 DiT（Diffusion Transformer）架構視頻生成模型。

雖然 OpenAI 在 2024 年春節期間發布了 Sora 的 Demo，極具震撼力，但 Sora 當時用戶不可用，直到 12 月才真正發布產品。

當時我定下了一個目標：要做全球第一個（可用產品），并超越 Sora。當我提出這個目標時，整個屋子的人都驚呆了，覺得「你們真的要挑戰 OpenAI 嗎？」我的回答是：「Why not?」

這背后是我們對競爭態勢的精細測算。我判斷 Sora 的 Demo 是 OpenAI 為了阻擊 Google 的發布而臨時拿出來的。阻擊完成后，OpenAI 的核心資源必然會回到語言模型上，以保持領先。我推測他們會在 5-6 月發語言模型，隨后才會把資源調回 Sora 進行產品化。所以，我給內部定的死命令是：必須在 5 月內完成從模型到產品的全線就緒。

最終，我們在 6 月 6 日正式發布。很多人好奇「為什么是快手先做出來了？」因為大家可能對快手的技術儲備和資源整合能力缺乏預判。

02 早期研發的艱辛：資源「鈑金」時代

張鵬：做 1.0 版本時，你投入了多少資源支撐這個「全球第一」？這個賬你應該算過。

蓋坤：可靈 1.0 的起步非常坎坷。在那個階段，我們甚至沒有足夠的頂級 NVIDIA 顯卡可用，很多訓練是靠公司此前采購的 AMD 卡或其他廠家的芯片支撐的。

張鵬：那訓練過程肯定磕磕絆絆，不夠順滑。

蓋坤：是的。當時可靈團隊在公司內部還處于默默無名的狀態。我負責管理社區科學部，在大模型方向上規劃了幾個維度，硬是從現有資源里「擠」出了一些算力卡。說實話，當時用的很多還不是英偉達的卡，算是「雜牌」卡，沒有任何一家主流視頻模型公司會選擇那樣的配置。

張鵬：聽起來這不像是標準的工業化生產，更像是一種「鈑金活兒」，是靠手工和拼勁兒硬生生打磨出來的。

蓋坤：確實是這樣。不過隨著模型效果越來越好，團隊信心也不斷提升，內部慢慢形成了一個正循環：效果越好，信心越大，我也就更有理由在資源池里向他們傾斜。

03 敢不敢與能不能

張鵬：在戰略評估時，你是如何推演「可行性」的？「敢不敢」挑戰 OpenAI 是一個維度，但物理上的「能不能」是如何推理出來的？

蓋坤：「敢不敢」是前置條件，如果不決策，連上牌桌的機會都沒有。當時我拍下「全球第一個發布并超越 Sora」的目標時，團隊內部充滿了震驚甚至抵觸。

我的邏輯有兩點，一個是生存躍遷，這是上頭部牌桌的唯一機會。如果不搏這一把，可靈很可能陷入「平庸-無資源-被淘汰」的負循環。還有一個是「光腳」心態，當時我們本來就是 Nobody。博輸了還是 Nobody，博贏了就徹底改變命運。

張鵬：這一波浪潮里，「敢不敢」有時真的比「能不能」更重要。

蓋坤：「敢不敢」是起點，但「能不能」靠的是硬核能力。團隊的技術底子必須過硬，否則喊口號沒用。我們會把模型的每一層架構都討論得非常透徹。我們也有對模型、數據量、卡數和時間進行量化拆解。雖然有風險，但我們算下來 1.0 版本在過億級或數億級數據量下是物理可行的。

我當時還推測 OpenAI 會為了應對 Google 而分心，優先回歸語言模型大版本的迭代，這為我們留出了 6-7 月的窗口期。事后證明，OpenAI 直到 12 月才真正發布產品，我們對競爭節奏的判斷基本準確。

04 從 Disagree 到 120% 的 Commit

張鵬：你把不確定性壓到了極限。但技術能力之外，如何讓一群覺得「目標不可能」的人真正動起來？

蓋坤：意愿至關重要。當時團隊展現了快手一直倡導的核心價值觀：Disagree and Commit（保留意見但全力執行）。

當我剛提出目標時，屋子里幾乎所有人都在反對，認為這個目標壓得太死，憑什么覺得能搞定？我的方法很簡單：深度拆解加上目標強壓。

同時，這群同學也憋著一股勁。很多核心成員此前在公司內默默無名，他們也意識到，這一戰如果打成了，就是真正的「一戰成名」。這種「光腳不怕穿鞋」的斗志，在重大目標面前起到了決定性作用。

但我最看重的是他們那種「保留意見但全力執行」（Disagree and Commit）的品質。這不只是口頭答應，而是先激烈討論、表達反對，但在目標定死、進入執行階段后，能投入 120% 的精力和意愿。我見過很多團隊，雖然口頭上被壓服了，但在實際執行中會有巨大的動作變形。可靈團隊這種價值觀的傳承，在早期起到了至關重要的作用。

05 多模態架構的必然邏輯

張鵬：1.0 的成功在于敢于率先突破壁壘，拿到了最大的紅利。但在那個節點，大部分人還看不清方向，你能先發制人是因為你敢于在沒有共識時做決策。那么你認為的第二個里程碑 O1），為什么如此重要？

蓋坤：其實從 2024 年到 2025 年，我的 OKR 里始終貫穿著一個詞：多模態。

這個想法源于我對「愿景」的倒推：如果目標是讓一個人能拍出腦海中的電影，那么現在的技術還缺什么？結論很明顯：語言作為溝通媒介，在視覺表達上是極其匱乏的。

比如，在拍攝中，你很難用語言精準描述一個人的長相并保證多鏡頭的一致性，或者描述一段極其復雜的微表情和動作細節。文字太抽象，無法還原精準的創意圖景。

張鵬：也就是說，在視頻創作領域，純語言并不是一個高效的介質。

蓋坤：對，所以我們要進化交互方式。我們在 2025 年 4 月推出了 MVL（多模態視覺語言）。其本質是解決輸入側的問題：雖然人類最習慣語言，但語言描述不了的細節，可以用圖片、視頻等其他模態的信息來補充。在我們的架構里，這些多模態信息被轉化為語言流中的「特殊詞（Special Tokens）」，比如「圖 1 中的人是主角」，從而實現更精準的控制。

06 如何在迷霧中帶隊爬山？

張鵬：MVL 是解決問題的架構，而 O1 則是承載這種能力的完整模型。在這個過程中，團隊內部是否再次經歷了不共識？

蓋坤：這次不共識的時間比 1.0 時期長得多。當時算法團隊面前有兩個分叉，一個是無限雕花，沿著 1.0、1.5、1.6 到 2.0 的路徑，不斷卷文生視頻、圖生視頻的技術指標。這個的優點是路徑清晰，每提升一點指標，市場和業務都會給出正向反饋，團隊能持續獲得「確定性」的獎勵。

另一個是升維躍遷，不再糾結于基礎功能的指標精度，而是徹底改變模型的理念和輸入輸出方式。這里的挑戰意味著我們要解決一堆從未有人解過的新問題。

張鵬：你顯然是堅定支持后者的。

蓋坤：是的。我堅信大模型的「涌現」能力：當你把新問題解得足夠好時，它反而能帶動老問題的泛化處理。

當時團隊面臨兩個巨大的不確定性，一個是市場不確定性，沒人做過這種多模態交互，用戶會買賬嗎？另一個是技術不確定性，這種架構在技術上能否跑通？

特別是 2025 年 Nano Banana 出來時，我一方面遺憾視頻領域的進度被圖像領域的類似技術搶了先，另一方面也慶幸它幫我們完成了內部「統一思想」的過程，讓團隊意識到多模態就是唯一的終點。

但我作為掌舵者必須明確方向：基座指標要保，但解決新問題才是未來的核心。

張鵬：1.0 時的阻力來自于「不相信能做成」，而這次的阻力來自于「大家不再是光腳的了」，開始有了成本意識和聲譽顧慮。

蓋坤：沒錯。大家開始在乎技術投入產出比。

張鵬：這種痛苦也理解。絕大多數人習慣了看山頂的風景，現在你讓他們下到滿是迷霧的山腳重新出發，去爬一座看不見頂的山，這確實極度考驗。

很多創新公司其實都會面臨同樣的抉擇：是在現有高度上不斷做工程精度的「雕花」，還是對齊大目標，一波波地翻山越嶺？

蓋坤：這就是可靈第二個節點比第一個節點進步的地方。1.0 時期，Sora 的 Demo 已經在前面了，技術方案（如 DiT 架構）雖然細節沒公布，但學術界早有雛形，大家對「能不能做出來」沒疑問，只是在趕工期。

而到了 O1、3.0 階段，我們是在選擇是平滑地走向下一個小高峰，還是穿越延綿的山脈去尋找終極目標。現在團隊對于「挑戰未知」已經形成了一種肌肉記憶，這種自信和沉淀非常寶貴。

張鵬：現在可靈的人才流動情況如何？

蓋坤：目前總體是凈流入，但流入流出的動力都很強。流入動力是說來可靈挑戰世界一流的技術，做真正 Great 的產品。流出動力就是高位變現。在可靈積累了足夠的 Credit，去外面也能拿到極高的待遇。

這很正常，我也坦誠面對。如果目標拉得不夠高，優秀的人才覺得沒意思自然會走；只有不斷探索無人區，才能持續吸引想做大事的人上車。

張鵬：接下來聊聊最近火出圈的 Motion Control（動作控制）。這種讓 C 端用戶覺得震撼、甚至產生病毒式傳播的功能，是你們預判到的爆發點嗎？

蓋坤：在我的視角里，Motion Control 的起點依然是需求，而非單純追求「爆款」，里面確實有賭對的成分。其實大家看到的爆版已經是我們的第二版了。

在 2.0 發布會時，我們提出了 MVL（多模態視覺語言）的理念。當時我們就在思考：除了圖像、視頻和語言，還有什么可以作為新模態？

張鵬：當時用戶的痛點是動作不可控、容易崩壞。

蓋坤：對。角色一致性問題解決得比較快，但動作控制一直是難點。我們當時就在探索如何把「動作」抽象成一種模態進行控制。

張鵬：所以，「動作」在你們看來也是一種模態。

蓋坤：在我們的認知里，動作（Motion）本身就是一個模態。現在的交互還處于中間階段，即用戶需要上傳一個已有的視頻，讓 AI 去跟隨。但最終的目標是實現動作的抽象化，讓用戶能直接與「動作模態」交互，從而實現真正的自由創作。

張鵬：直接下令讓角色「快樂地奔跑」，它就能跑出來，而不是非得找個跑步視頻喂給它。

蓋坤：沒錯。在 2.0 發布會上，我預告動作控制時，其實是把它放在多模態視覺語言（MVL）的大版圖里。雖然當時業界還沒完全理解這種前瞻性，但我堅信這是通往愿景的必經之路。

張鵬：這種前瞻思維往往伴隨著內部的博弈。這中間有遇到什么波折嗎？

蓋坤：早期確實有爭議。第一版動作控制的技術實現不夠理想，產品入口也深，用戶很難發現。

但在管理上，我堅持要把這個方向做下去。后來團隊在技術上實現了突破：我們沒有采用學術界主流的「火柴人」方案，而是對動作模態的定義進行了創新。

張鵬：后來是調高了內部的「獎勵函數」，給團隊加壓了嗎？

蓋坤：其實是自然生長的過程，我只是提供了必要的「陽光和水」，核心工作是團隊自主完成的。當模型進入測試尾期，內部的測試用例出來的結果讓我們非常驚艷。那種質感已經超越了傳統的 AI 生成感，甚至讓我找回了早期刷短視頻時（如海草舞時期）那種停不下來的感覺。

張鵬：當時你預感到它會火，那上線后的真實反饋是怎樣的？

蓋坤：上線后我一直在等它「爆」。我們 12 月中旬上線，等了十幾天，直到 1 月初先在印度火了，接著是韓國。

有意思的是，這屬于「意料之中的潛力，意料之外的路徑」。我們預期的爆點是極其硬核的帥哥美女跳舞，那是我們能力最強、素質最高的點。但實際走紅的點反而是小朋友和寵物的趣味舞蹈。

我們的宣發體量并不大，用戶生態的自發傳播帶來了這次的影響。

07 多模態的終局：走向 All-in-One

張鵬：所以本質上，你們是通過把「動作」引入多模態版圖，創造了新的可能性。那么下一步呢？除了動作，還有沒有其他待開發的模態？

蓋坤：動作模態還沒做完整。現在的動作控制更像是一個插件或單獨的功能，下一步的目標是實現真正的 All-in-One（全模態大一統）——將動作模態深度抽象并融入模型。

至于未來，為了解決「場景一致性」等更高階的需求，我們可能會對模態進行進一步的擴展和定義。

張鵬：「場景一致性」最終會對應到什么模態？

蓋坤：它不一定是一個簡單的模態，更像是一個綜合解決方案。

目前人物一致性已經有了長足進步，但場景一致性依然是大問題。當用戶要求變高時，你會發現切鏡頭后屋子的結構變了。雖然現在大家往往被特寫鏡頭吸引而忽視背景，但在未來的完整敘事里，場景的一致性必須是斷點。

我們可能需要通過簡單的 3D 堆疊（3D Stacking）疊加精細的表觀細節生成能力（Appearance Generation），讓場景在不同鏡頭、角度和位置下保持絕對一致。這在拍攝復雜的太空片或史詩級故事片時尤為關鍵。

張鵬：現在業界有個調侃的觀點：AI 已經很強了，但由于普通用戶缺乏專業描述能力，AI 的上限很難被激發。這也解釋了為什么現在很多創業公司都轉向了 Pro-C（專業級個人用戶），因為只有這部分人能用 AI 賺到錢并為此付費。

蓋坤：其實不只是普通用戶，如果沒有合適的交互介質，連 Pro-C 也控制不了 AI。如果你不提供一種契合 AI 能力邏輯的交互方式，專業人士同樣會覺得 AI 難以馴服。

張鵬：所以，未來的核心目標其實是重新定義交互。這種交互不再是簡單的 UI/UX 調色，而是通過拆解不同的模態（如動作、表情、3D 結構等）來改變交互介質，讓模型的能力真正落到產品里。這已經從純設計變成了一個極其深度的技術課題。

蓋坤：總結來說，可靈的核心能力是由三件事支撐的集合。首先是愿景驅動，這里包含終極需求和未來市場的想象力。我們所有的技術反推，起點都是為了實現「讓每個人都能拍出腦海中的電影」。

其次是不設邊界的技術功底，作為算法出身，我要求技術研發不設邊界，但前提是「心里有譜」。你得清楚模型在技術邏輯上究竟能突破到哪一步。

最后是產品交互的同步變革：像 MVL 這種理念，本質是產品交互層面的創新。任何單方面的能力都不足以支撐現在的可靈。我需要知道模型的發展方向，更要知道如何通過重構人和 AI 之間的交互介質，來釋放人的創作欲。

張鵬：你如何定義「模態」和「解決方案」？

蓋坤：模態是你定義的一種新的輸入/輸出格式，比如文字、圖像、視頻、動作序列，甚至未來的 3D 建模態。解決方案是多種模態共同配合來解決一個復雜問題。

對于普通用戶來說，能操作的 3D 往往是非常粗糙的。但要實現視頻的一致性，精細的細節必不可少。這就是為什么我主張將模態與解決方案分層：我們可能需要用一個粗糙的 3D 模型作為骨架，疊加生圖模態的表觀細節，再配合文字描述，三個模態合力來解決任意視角下的場景一致性問題。

我們現在在做的 Scaling 模態，本質上是把世界的運行公式拆解得更完整。每定義一種新模態（如我們對動作控制的技術處理），就像創造一種新語言，雖然極難，但這才是真正的創新路徑。

張鵬：這本質上是把世界的運行公式拆解得更完整，讓工程化實現變得更容易。

蓋坤：沒錯。但創造一個新模態（如我們對動作控制的底層處理）極難，它不是現有東西的排列組合，而是需要無數次的想象與驗證，就像創造一門新語言。我們團隊的路徑就是沿著目標，在技術和交互上「不設邊界」。大多數人是在已有模態中做選擇，而我們是直接創造新模態。

08、 1 到 3 年內實現「人人都是導演」

張鵬：你提到了一個詞——「中期愿景」。這個中期是怎么定義的？

蓋坤：我不是按時間定義，而是按對世界的改變來定義。

我的中期愿景是：讓每個人都能用 AI 拍出好故事、好電影。考慮到現在 AI 并沒有減速，甚至在加速進化，我覺得快則一年，慢則三年，這個愿景就能實現。

目前行業里 AI 真人短劇的火爆已經驗證了這一點。從最初的萌芽到如今已經出現真正賺錢的作品，這非常像一年多以前的動態漫，或者幾年前短劇剛起步的狀態。AI 徹底改寫短劇賽道已經是確定性事件，接下來就是電影。

張鵬：這其實是平權化的過程。不需要是業界大導演，也能擁有拍出高質量作品的資源。

蓋坤：對。目前大家還在賺「工具」層面的錢，但這層成熟后，真正的 ToC 機會就來了。

我一直認為：當規模化、多樣性的好內容多到一定程度，全新的 AI 內容平臺就會誕生。

傳統內容平臺靠雙邊網絡（創作者與用戶）構筑了極其穩固的護城河。新玩家很難切入，因為兩端互相卡脖子。但 AI 打破了這一僵局——它提供了一種無法被壟斷的新供給。

張鵬：要打開新消費，必須先有新供給。拼多多當年打淘寶也是這個邏輯。但如果僅僅是內容變了，它可能只是「第二個快手」。這種新平臺會有什么本質的機制變化嗎？

蓋坤：我認為有兩步走。第一階段是內容質量。這是必要條件，質量必須足夠高，用戶才愿意看。第二階段是互動與交互。當內容質量在賽道內拉不開差距時，新的變量就是個性化與實時互動。

在 AI 時代，這種交互非常直觀。比如看一部「爽文」邏輯的短劇，主角可以是你自己。如果你能把自己的形象、性格代入其中，且 AI 能保證生成質量，這種極致的個性化消費將徹底改變人與內容的關系。

張鵬：先解決好內容的「量產」，再通過 AI 實現「主角是你自己」的深度參與。

蓋坤：在 AI 生成內容的時代，游戲與影視的邊界會模糊。系統不僅能「猜你喜歡」，還能讓你通過互動直接影響情節走向。這背后是極致的個性化與極致的互動，這兩個維度存在巨大的想象空間。

張鵬：這會催生全新的商業模式。如果用戶能把自己「注入」到角色里，甚至讓 AI 稍微美化一下形象，大家是非常愿意付費的。現在已有團隊基于 LoRA 技術為每個人定制專屬模型，這意味著「長期記憶」可以轉化為不斷迭代的個人模型。

蓋坤：沒錯。當各平臺的生成質量都達到臨界點、拉不開差距時，個性化與可操控性就成了決定勝負的「決勝點」。

張鵬：一個新平臺想要顛覆舊秩序，必須在質量、個性化、可操控性這三個維度同時撞線。否則，單純的質量優勢很快會被對手追平。

蓋坤：傳統內容平臺（如抖音、快手）的雙邊網絡是基于人的，帶有強烈的真人社交屬性。而 AI 內容平臺最重要的變化在于社交屬性的轉化。

很多人不看好 AI 內容平臺，是覺得虛擬形象無法滿足真人的社交需求。但我認為需求并沒有消失，而是轉化為「AI 虛擬社交」或「情感陪伴」。它不再是單純為了建立線下關系，而是像電子寵物或情感伴侶一樣的直達體驗。

張鵬：這個比喻很有趣，社交不再是約著去「喝咖啡」，而是跳過過程，直接為用戶提供「咖啡因」。現在的爽劇就是這種邏輯——不講究口感（畫面細節），只講究功效（心理爽感）。

蓋坤：AI 真人短劇之所以能在影視賽道率先跑通，是因為爽劇用戶對畫面質量的容忍度較高。用戶可以忍受微小的變形，只要情節足夠吸引人。

這個過程是階梯式的：

1. 動態漫階段：畫面質量甚至可以「崩到飛起」，因為情節占比極大。

2. 短劇階段：咖啡因效應強，對畫面的容忍度依然較大。

3. 高階影視階段：隨著技術提升，用戶最終會對畫面、質量、情節提出全面要求。

技術進步正在逐級解鎖用戶需求。當畫面質量不再是障礙，規模化、多樣性的好內容供給就會徹底爆發。

蓋坤：視頻生文模型生成的描述越精準、越細膩，訓練出的文生視頻模型對指令的遵循度就越高。這屬于各家的核心技術壁壘，大家通常秘而不宣，但它確實決定了模型最終的「智商」。視頻模型不是一個孤立的單點突破，它的多點聯動效應極強。如果視頻理解（標注）做得不好，生成的上限也就被鎖死了。

張鵬：這事兒就像蓋房子，是一層層壘上去的。如果最底層的數據和邏輯壘歪了，后面的模型表現就沒法看了。

蓋坤：很多人對視頻大模型有誤解，覺得它只是語言模型的一個應用或延伸。實際上，它是一個完全獨立的各種基礎模型。

它之所以比語言模型出現得晚，是因為它是一個高度復雜的系統工程，存在極強的技術依賴。語言模型更像是一個「單點」突破——通過爬取和清洗天然存在的文字數據就能起步；但視頻模型不同，自然界中并不存在現成的「文本-視頻」高質量對齊數據。

張鵬：也就是說，在視頻領域，如果你沒有技術手段自己去「造」出高質量數據，你連起步的資格都沒有。這本質上不是資源問題，而是算法問題。

蓋坤：對，「數據本身就是一個算法問題」。但在產品交互層，用戶是看不到這層「材料科學」般的底層投入的。

一個頂尖的視頻生成團隊，必須在「視頻理解」上有極深的沉淀。你不能只搞生成，你得先用一系列復雜的理解模型去處理、標注、生成高質量的訓練素材。這絕非單點突破能搞定的。

09 為什么是快手？

張鵬：很多人好奇「為什么是可靈」。大家常猜測是因為快手有海量的短視頻數據積累，或者是因為早期的視頻審核業務帶火了視頻理解技術。

蓋坤：這些關系不大。我認為快手給可靈帶來的最大資產是一個現成的、建制化的團隊。

這個團隊在「理解」和「生成」上都有深厚功底。對于很多入局者來說，光是組建這樣一個 Ready 的團隊，可能就要耗費巨大的精力，甚至根本搞不定。

張鵬：這個團隊最初是怎么規劃的？

蓋坤：2023 年，一笑決定投入卡做大模型，我負責規劃和實施，當時大家默認指的都是語言模型。但我年底在「社區科學線」規劃了幾個前瞻方向，其中就包括視頻生成。我們把相關人才碼在一起組成了團隊，但坦白說，當時的技術路線還很模糊。

張鵬：是 Sora 的出現指明了方向？

蓋坤：Sora 的 Demo 是 2024 年春節期間發布的，極大地刺激了業界。

我在假期里就給團隊布置了任務：如果我們要復現 Sora，技術方案是什么？春節回來后，我們就在這個辦公室開會。當時很多大廠還在猶豫是繼續走原有的路徑還是轉向，但我們在春節后的前幾個工作日就完成了技術對齊，決定全線放棄其他架構，All-in DiT（Diffusion Transformer）架構。

當時大家把方案討論清楚后，覺得物理可行，我才拍板定下了那個「要做全球第一個可用產品」的目標。

我后來在內部打過一個比方：OpenAI 就像是一個高冷的女神，她做出了驚人的東西，大家只會遠觀議論，不覺得自己能行；但當可靈作為一個「鄰居」把這事兒干成了，大家才猛然驚醒——原來這事兒真的能落地，我們也能干！

10 AI 時代組織能力的「第三次演進」

張鵬：過去這段時間，你對于組織團隊這方面有什么思考和收獲嗎？

蓋坤：我可以分享一下我對過去二十年企業組織能力的看法，我認為它們經歷了三個階段：

首先是產品與運營驅動階段，例如阿里早期有極致的 To B 產品和運營能力，核心是搞定供給側。騰訊早期有極致的 To C 產品能力，在社交上構建出了網絡效應。這些業務早期階段中算法不是必要要素，所以業務邏輯中不太需要處理「算法不確定性」。

然后是算法與實驗驅動階段，這類業務（如 Google 的搜索、字節與快手的推薦）必須處理算法帶來的不確定性。核心手段是 AB 實驗和 bottom up 的試錯機制。通過海量的實驗來尋找業務的最優解。局限性在于 AB 實驗是有天花板的。它適用于在有限的候選集里做低成本嘗試。

最后是 Vision 與頂層意志驅動階段，大模型時代改變了游戲規則：一次嘗試的代價巨大（千萬美金起步），且創新是在無限可能的空間里尋找不存在的路徑（如多模態、DiT 架構）。核心能力在于由領軍人物進行頂層技術與業務意志的規劃。這種組織不再只依靠隨機賽馬，而是靠極強的 Vision（愿景）牽引，在一個茫茫多的可能性中下重注賭對方向。

11 大模型時代的「隧穿效應」

張鵬：在大模型時代，由于每一次嘗試的代價都極其巨大，且面對的是一個完全沒有參考系的「開放世界」，傳統的 A/B 測試已經失效了。

現在的競爭更像是愛因斯坦式的「思維實驗」時代。誰能在腦海中先通過精準的 Vision 完成推演，誰就能在現實中獲得最高的執行效率。這種 Vision 就是「魔法」，它能讓團隊實現「隧穿效應」，繞過對手那些你根本扛不過的肌肉和資源，直接抵達戰場中心。

蓋坤：沒錯。在短視頻推薦時代，靠的是人力的試錯和極高的人素效率。但在大模型這種基模時代，語境徹底變了。

快手在資源和肌肉上很難和這種推土機式的試錯效率競爭。如果非要拼肌肉，那就是斯巴達 300 勇士沖向十幾萬大軍，哪怕打出神跡，最后也只能光榮戰死。我們必須變「法師」，靠領先的技術方法論和頂層規劃去制造局部優勢，這才是第二名趕超第一名的唯一路徑。

張鵬：所以社區科學線的存在，其實就是快手在算法領域保持「法師」屬性的核心？

蓋坤：我一直致力于算法層面的原創創新。在社科線，我們將搜、推、廣與大模型結合，這種在方法論層面的文明和底蘊，讓我們在面對第一名的肌肉競爭時，能守住那塊屬于自己的陣地。可靈的誕生，就是這種「頂層牽引」和「Vision 驅動」在視頻生成領域的具象化爆發。

張鵬：聽說這個房間（1405 辦公室）對你們意義非凡？

蓋坤：是的。可靈所有重大的轉折點決策都是在這個房間里做的。

一個是 2023 年底決定啟動視頻生成方向；另一個是 2024 年春節后，決定全線放棄其他方案，All-in DiT 架構，并拍板要做全球第一個可用產品。這些決策不僅需要技術判斷，更需要一種能量。

張鵬：這也是中國企業最精彩的地方：不是單純的彎道超車，而是看準時機后的「直線加速」。

張鵬：今天聊得非常暢快。過去大家看可靈，往往看的是參數和樣片，我這次來就是想還原背后的那些「底層代碼」——是什么在驅動你們？

蓋坤：快手是個實在的公司，可靈的每一步都是實實在在走出來的。在這個時代，大家遺忘得很快，只有把產品做到極致，不斷翻越一座座山丘，才能真正抵達彼岸。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.