網易首頁 > 網易號 > 正文申請入駐

中國 AI 視頻賽道最大單筆融資，為什么給了愛詩科技

2026-03-13 10:04:25　來源: AppSo

廣東舉報

分享至

APPSO 獲悉，愛詩科技近日完成 3 億美元 C 輪融資，創下國內 AI 視頻生成賽道單筆融資的最高紀錄。

領投方鼎暉香港基金聯合鼎暉 VGC、鼎暉百孚重金押注；產業資本中國儒意、三七互娛緊隨入場；國內政府引導基金、險資、家族辦公室，還有 UOB Venture Management、Lion X 基金。參投名單橫跨兩個半球，不同領域的資本默契涌向了同一個方向。

3 億美元融資放在當下 AI 行業似乎沒有什么好驚訝的，這還不到 OpenAI 融資的零頭。但你得把這個數字放進 AI 視頻賽道的坐標系里看：

成立于 2018 年的 Runway，花了七年才在上個月完成 3.15 億美元的 E 輪融資。而愛詩科技從種子輪走到同等量級的 C 輪，只用了不到三年。

A 輪，達晨財智領投，螞蟻集團跟進；B 輪，阿里巴巴領投逾 6000 萬美元，彼時已是國內視頻生成賽道最大的一筆錢；C 輪，3 億美元，紀錄再次被自己改寫。

每一輪都有新的頂級機構首次入場，每一輪金額都在翻倍。節奏越來越快，籌碼越押越重。

實際上，這筆融資反映出的信號大于數字本身：AI 視頻不再是大模型敘事的配角，資本已經把它當作一條獨立的、值得重倉的賽道來押注。

愛詩科技創始人王長虎曾在 2024 年表示，視頻生成一定是被低估的。愛詩科技用不到三年時間，將這個非共識變成了資本共識。

非共識的起點：2023 年，為什么是視頻

「我不會創業，但沒關系，創業就是邊做邊學。」2023 年 4 月，愛詩科技創始人王長虎決定創業時，就是帶著這句話出門的。

2023 年 4 月，愛詩科技創始人王長虎帶著一個在當時看起來相當「偏科」的判斷出來：當所有人都在追大語言模型，他要押注視頻生成。

要知道一年之后 OpenAI 的 Sora 才正式亮相，可以想象當時王長虎這個選擇有多么反常識。

在微軟亞洲研究院待了 8 年、在字節跳動做了 4 年 AI Lab 總監之后，王長虎比大多數人更清楚視頻 AI 的技術節奏。「2023 年初很多人都不認同做視頻這件事，大家都在看大語言模型，」他后來回憶，「但這就有了非共識：我們覺得視頻生成是大事，而我們過去在視頻和 AI 方面有經驗，能贏在全球。」

這個判斷在當時要承受不小的壓力。相比語言模型，視頻生成的算力消耗更大，生成質量更難控制，產品化路徑也更模糊。早期的投資人需要相信的，不是現在能看到什么，而是三年后那張尚未成型的藍圖。

2024 年 3 月，達晨財智率先領投 A1 輪，完成了第一次押注。隨后一個月，螞蟻集團以逾 1 億元人民幣跟投，是彼時國內 AI 視頻領域單筆最大機構投資。至此，愛詩科技基本完成了從「技術方向」到「資本方向」的驗證。

王長虎在創業之初就明確了愿景：「幫助每個人成為生活的導演」。海外產品 PixVerse 和國內產品拍我 AI，都是在這個方向上的落地——前者于 2024 年 1 月上線，后者于 2025 年 6 月推出，兩款產品針對不同市場獨立運營。

DiT 架構：那個沒人看好的選擇

要理解這筆 3 億美元的 C 輪，需要先看懂愛詩科技的技術路線。

把愛詩科技的技術路線從頭捋一遍，會發現 DiT（Diffusion Transformer）架構這個選擇，是整個故事的原點，也是很多結果的前提。

2023 年，國內主流視頻生成方案普遍采用 U-Net 架構。這也沒問題，U-Net 經過了圖像生成領域多年實踐的充分驗證，穩定、成熟，調參經驗相對成熟，可以較快地跑出效果。對大多數想先做出來再說的團隊，這是理所當然的選擇。

可以愛詩科技選了 DiT，成為國內首家將這一架構用于視頻生成的創業公司。

DiT 是 Diffusion（擴散模型）與 Transformer 的組合架構。Transformer 的核心優勢在于注意力機制（Attention Mechanism）——它讓模型在處理數據時，能夠同時「感知」序列中任意位置的信息，而不是像卷積網絡那樣只能處理局部區域。

對于視頻生成這個任務來說，這種能力的價值是決定性的：視頻的本質是時間軸上的連續幀，每一幀的內容與上下幀存在復雜的時空依賴關系。人物的動作要連貫，物體的運動軌跡要符合物理規律，光影變化要在跨幀時保持一致——這些要求，需要模型能夠捕捉「跨幀的長程時空關聯」，而這正是 Transformer 天然擅長的事。

但這個選擇在 2023 年要付出不小代價：DiT 在訓練初期對算力和數據量的要求更高，起步階段幾乎必然要經歷「效果不如成熟 U-Net」的陣痛期。對一家剛起步的創業公司，這是不小的風險，錢可能在效果變好之前就燒完了。

事實證明，這個判斷是對的。2024 年 Sora 發布時，OpenAI 公開的技術路線正是 DiT。在視頻生成這個方向上，DiT 架構確實是更接近正確答案的那條路。

當 Sora 發布時，愛詩已經在 DiT 架構上積累了一年多的訓練經驗、數據處理流程、工程優化方案。這種時間差，在技術迭代速度極快的 AI 領域，十分關鍵。

模型產品兩手抓，被低估的核心邏輯

在 AI 視頻領域，大多數公司的做法是先把模型訓練好，再去想產品怎么做。這是一條看起來穩妥的路，模型成熟了，產品化的風險就小得多。

但這種路線有個致命問題：等模型「訓練好」的時候，你已經錯過了最關鍵的反饋窗口。用戶真正需要什么樣的生成效果？哪些場景的需求最強烈？模型應該在哪些維度上優先優化？這些問題，只有產品跑起來、用戶用起來，才能得到真實答案。

愛詩從一開始就把模型訓練和產品迭代放在同一個循環里。

PixVerse 網頁版 2024 年 1 月上線時，模型還遠未到「完美」狀態，但產品已經可以讓用戶生成視頻、給出反饋。每一個版本的模型升級，都直接來自上一個版本用戶的真實使用數據，哪些 Prompt 成功率低、哪些特效最受歡迎、哪些場景容易出錯，這些信號實時回流到訓練流程，指導下一輪模型優化的方向。

更重要的是，這種模型-產品的協同進化，會隨著時間推移形成復利效應：用戶越多，反饋越密集，模型優化越精準，產品體驗越好，又吸引更多用戶——這是一個正向飛輪，而不是單向的技術推進。

「這就是創業公司的優勢所在，沒那么復雜，所以效率高，」愛詩聯合創始人謝旭璋說。這句話聽起來輕描淡寫，但背后是對技術路線、產品節奏、組織能力的高度整合。大廠可以投入更多算力、更大團隊，但很難做到這種模型與產品的深度結合，流程太長，部門太多，反饋鏈條一旦拉長，速度優勢就會被稀釋。

這種效率優勢最終體現在成本結構上。謝旭璋在接受晚點采訪時透露，愛詩「平均每月用的訓練資源不到千卡，成本大概只有同行的 10%」。

這是一種結構性的成本優勢，而不是靠壓縮預算換來的短期節省。用謝旭璋的話說，是模型架構、算法、工程、產品能力的綜合優勢。

當模型優化方向始終貼著真實需求在走，就能減少在錯誤的方向上浪費算力；產品反饋能實時指導訓練策略，每一次迭代的投入產出比都會更高。

V5.6 生成視頻

從 2024 年 1 月 PixVerse 網頁版正式上線，到 2026 年初 V5.6 發布，愛詩科技連續更新 8 個主要版本，平均每兩個月就有一次大的模型升級。

這種迭代密度的背后，正是模型與產品一起訓練的方法論在起作用：

V2（2024 年 7 月）：多段視頻生成與局部重繪筆刷上線，用戶從單純「生成一段」開始走向「編輯與創作」；

V3（2024 年 10 月）：特效模式上線，「抽卡概率」從隨機提升至接近確定性，這是 PixVerse 從創作工具邁向大眾產品的真正節點；

V3.5（2024 年 12 月）：生成時間壓縮至 10 秒內，極大降低用戶等待成本；

V4（2025 年初）：「準實時生成」能力出現，5-7 秒生成 5 秒視頻；

V4.5（2025 年 5 月）：參數量與訓練數據集指數級擴張，全球用戶達 6000 萬；

拍我AI （2025 年 6 月）：PixVerse 國內版「拍我AI」發布，同步上線網頁端及移動端應用；

V5（2025 年 8 月）：Agent 創作助手上線，用戶不再需要學習 Prompt 語法，口語化意圖自動轉化為模型指令，API 生態同步開放；

V5.5（2025 年 12 月）：「分鏡 + 音頻」一鍵生成，國內首次實現畫面與聲音的同步協同，完整敘事能力成型；

V5.6 （2026 年 1 月 26 日）：模態大模型，支持分鏡和音畫同步生成。

在權威 AI 評估機構 Artificial Analysis 最新發布的視頻生成模型排行榜中， PixVerse V5.6 位列全球第 2 位，持續領跑全球視頻生成模型第一梯隊。

這種迭代密度在 AI 視頻行業里相當罕見，愛詩跟很多同類產品的策略不同：持續往前推，每一版解決真實用戶在當下遇到的真實問題，同時在架構層面為下一次躍升保留余量。

背后的可行性，恰恰是 DiT 架構的可擴展性所賦予的，每次模型升級，不需要推倒底層重來，而是在既有基礎上加寬加深。

3 億美元，押注不只是 AI 視頻

但鼎暉最終決定領投這次 C 輪，押注的不只是 V5 的榜單排名，可能還有 2026 年 1 月剛剛發布的 PixVerse R1。

R1 可以說是愛詩科技迄今最激進的一次產品技術迭代。

過去的視頻生成，無論做得多精致，本質上都是「把指令翻譯成一段視頻文件」，是一次性的、離線的渲染過程。用戶輸入指令，等待生成，拿走一段固定的視頻文件。這像是在沖洗膠卷，你拍完就拍完了，要等沖洗出來才能看，看完也無法再改。

R1 不是這個邏輯，它不再只是「生成一段視頻」，是一個能實時響應用戶交互指令的「世界模型」：用戶可以在視頻播放中輸入指令，改變光影、替換背景、控制角色走向，系統響應延遲約 2 秒，輸出為 1080P 超高清實時視頻流。

背后依賴的是愛詩自研的「瞬時響應引擎（IRE）」，它將計算步驟從數十步壓縮至 1-4 步，實現從「離線渲染」到「實時交互」的重要升級。

謝旭璋判斷，未來視頻和游戲的邊界一定會越來越模糊。一旦視頻變得能交互了，全新的內容、用戶和創作機會就會涌現。

謝旭璋在采訪中透露，R1 發布后，游戲行業的 B 端客戶來得最多，「以后的游戲開發不用再像過去那樣熬漫長的大周期了，無論是玩法、畫面還是劇情，AI 都能讓它變得更輕量、更具想象力。更重要的是，它能幫那些不懂代碼但有創意的人，把點子變成真正的游戲。」

R1 的潛在價值，已經超出了「更好的視頻生成工具」這個范疇。如果說 PixVerse V5 是在爭視頻生成工具的頭部位置，R1 是在定義是一個完全不同的品類——實時交互式內容體驗的操作系統。它的競爭對手，不再是 Runway 或可靈，是 Unity、Unreal Engine，甚至是尚未出現的內容消費形態。

回看愛詩科技這筆 C 輪的投資人結構，其實本身就是一個信號。

鼎暉三支基金聯合領投，背后是對這家公司進入規模化階段的系統性判斷。產業資本中國儒意（影視內容）和三七互娛（游戲）的入場，指向了 R1 要重構兩個行業：互動影視制作和 AI 原生游戲開發。

進入 2026 年，整個 AI 視頻賽道也在加速進入下半場。前有 Seedance 2.0 風靡全球，現在愛詩科技成為新的獨角獸。

目前，PixVerse 全球注冊用戶突破 1 億，MAU 超過 1600 萬；國內版拍我 AI 與 PixVerse 形成雙軌并行格局；愛詩科技也是 2025 年聯合國「人工智能向善全球峰會」上唯一入選的中國 AI 視頻應用，并于同年正式加入聯合國大學全球人工智能網絡。

愛詩科技這筆 3 億美元融資，可以理解為資本對一個即將到來時代的投票。AI 視頻的下一個戰場，不在參數量，不在榜單排名，關鍵在于誰先把視頻從一個「消費品」變成一個「交互界面」。

不過，知道技術路線在哪里會拐彎，和相信這條路最終走得通，是兩件事。

在 AI 這個行業，「選對了方向」本身并不稀缺。稀缺的是，在方向被主流認可之前那段空白期里，有沒有足夠具體、足夠扎實的東西，支撐你不搖擺。

三年里愛詩科技在這條路線沒有在中途斷裂，很難說是提前預見了終點的全知視角，而是每走一步，下一步的方向都從上一步的技術現實中自然長出來。

視頻正在從被觀看的內容，變成被觸碰的世界。因此，這三億美元所押注，遠不止 AI 視頻的未來，而是那個「萬物皆可交互」的時代。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.