APPSO 獲悉,愛詩科技近日完成 3 億美元 C 輪融資,創下國內 AI 視頻生成賽道單筆融資的最高紀錄。
領投方鼎暉香港基金聯合鼎暉 VGC、鼎暉百孚重金押注;產業資本中國儒意、三七互娛緊隨入場;國內政府引導基金、險資、家族辦公室,還有 UOB Venture Management、Lion X 基金。參投名單橫跨兩個半球,不同領域的資本默契涌向了同一個方向。
3 億美元融資放在當下 AI 行業似乎沒有什么好驚訝的,這還不到 OpenAI 融資的零頭。但你得把這個數字放進 AI 視頻賽道的坐標系里看:
成立于 2018 年的 Runway,花了七年才在上個月完成 3.15 億美元的 E 輪融資。而愛詩科技從種子輪走到同等量級的 C 輪,只用了不到三年。
A 輪,達晨財智領投,螞蟻集團跟進;B 輪,阿里巴巴領投逾 6000 萬美元,彼時已是國內視頻生成賽道最大的一筆錢;C 輪,3 億美元,紀錄再次被自己改寫。
![]()
每一輪都有新的頂級機構首次入場,每一輪金額都在翻倍。節奏越來越快,籌碼越押越重。
實際上,這筆融資反映出的信號大于數字本身:AI 視頻不再是大模型敘事的配角,資本已經把它當作一條獨立的、值得重倉的賽道來押注。
愛詩科技創始人王長虎曾在 2024 年表示,視頻生成一定是被低估的。愛詩科技用不到三年時間,將這個非共識變成了資本共識。
非共識的起點:2023 年,為什么是視頻
「我不會創業,但沒關系,創業就是邊做邊學。」2023 年 4 月,愛詩科技創始人王長虎決定創業時,就是帶著這句話出門的。
2023 年 4 月,愛詩科技創始人王長虎帶著一個在當時看起來相當「偏科」的判斷出來:當所有人都在追大語言模型,他要押注視頻生成。
要知道一年之后 OpenAI 的 Sora 才正式亮相,可以想象當時王長虎這個選擇有多么反常識。
在微軟亞洲研究院待了 8 年、在字節跳動做了 4 年 AI Lab 總監之后,王長虎比大多數人更清楚視頻 AI 的技術節奏。「2023 年初很多人都不認同做視頻這件事,大家都在看大語言模型,」他后來回憶,「但這就有了非共識:我們覺得視頻生成是大事,而我們過去在視頻和 AI 方面有經驗,能贏在全球。」
這個判斷在當時要承受不小的壓力。相比語言模型,視頻生成的算力消耗更大,生成質量更難控制,產品化路徑也更模糊。早期的投資人需要相信的,不是現在能看到什么,而是三年后那張尚未成型的藍圖。
2024 年 3 月,達晨財智率先領投 A1 輪,完成了第一次押注。隨后一個月,螞蟻集團以逾 1 億元人民幣跟投,是彼時國內 AI 視頻領域單筆最大機構投資。至此,愛詩科技基本完成了從「技術方向」到「資本方向」的驗證。
王長虎在創業之初就明確了愿景:「幫助每個人成為生活的導演」。海外產品 PixVerse 和國內產品拍我 AI,都是在這個方向上的落地——前者于 2024 年 1 月上線,后者于 2025 年 6 月推出,兩款產品針對不同市場獨立運營。
![]()
DiT 架構:那個沒人看好的選擇
要理解這筆 3 億美元的 C 輪,需要先看懂愛詩科技的技術路線。
把愛詩科技的技術路線從頭捋一遍,會發現 DiT(Diffusion Transformer)架構這個選擇,是整個故事的原點,也是很多結果的前提。
2023 年,國內主流視頻生成方案普遍采用 U-Net 架構。這也沒問題,U-Net 經過了圖像生成領域多年實踐的充分驗證,穩定、成熟,調參經驗相對成熟,可以較快地跑出效果。對大多數想先做出來再說的團隊,這是理所當然的選擇。
可以愛詩科技選了 DiT,成為國內首家將這一架構用于視頻生成的創業公司。
DiT 是 Diffusion(擴散模型)與 Transformer 的組合架構。Transformer 的核心優勢在于注意力機制(Attention Mechanism)——它讓模型在處理數據時,能夠同時「感知」序列中任意位置的信息,而不是像卷積網絡那樣只能處理局部區域。
對于視頻生成這個任務來說,這種能力的價值是決定性的:視頻的本質是時間軸上的連續幀,每一幀的內容與上下幀存在復雜的時空依賴關系。人物的動作要連貫,物體的運動軌跡要符合物理規律,光影變化要在跨幀時保持一致——這些要求,需要模型能夠捕捉「跨幀的長程時空關聯」,而這正是 Transformer 天然擅長的事。
![]()
但這個選擇在 2023 年要付出不小代價:DiT 在訓練初期對算力和數據量的要求更高,起步階段幾乎必然要經歷「效果不如成熟 U-Net」的陣痛期。對一家剛起步的創業公司,這是不小的風險,錢可能在效果變好之前就燒完了。
事實證明,這個判斷是對的。2024 年 Sora 發布時,OpenAI 公開的技術路線正是 DiT。在視頻生成這個方向上,DiT 架構確實是更接近正確答案的那條路。
當 Sora 發布時,愛詩已經在 DiT 架構上積累了一年多的訓練經驗、數據處理流程、工程優化方案。這種時間差,在技術迭代速度極快的 AI 領域,十分關鍵。
模型產品兩手抓,被低估的核心邏輯
在 AI 視頻領域,大多數公司的做法是先把模型訓練好,再去想產品怎么做。這是一條看起來穩妥的路,模型成熟了,產品化的風險就小得多。
但這種路線有個致命問題:等模型「訓練好」的時候,你已經錯過了最關鍵的反饋窗口。用戶真正需要什么樣的生成效果?哪些場景的需求最強烈?模型應該在哪些維度上優先優化?這些問題,只有產品跑起來、用戶用起來,才能得到真實答案。
愛詩從一開始就把模型訓練和產品迭代放在同一個循環里。
PixVerse 網頁版 2024 年 1 月上線時,模型還遠未到「完美」狀態,但產品已經可以讓用戶生成視頻、給出反饋。每一個版本的模型升級,都直接來自上一個版本用戶的真實使用數據,哪些 Prompt 成功率低、哪些特效最受歡迎、哪些場景容易出錯,這些信號實時回流到訓練流程,指導下一輪模型優化的方向。
更重要的是,這種模型-產品的協同進化,會隨著時間推移形成復利效應:用戶越多,反饋越密集,模型優化越精準,產品體驗越好,又吸引更多用戶——這是一個正向飛輪,而不是單向的技術推進。
「這就是創業公司的優勢所在,沒那么復雜,所以效率高,」愛詩聯合創始人謝旭璋說。這句話聽起來輕描淡寫,但背后是對技術路線、產品節奏、組織能力的高度整合。大廠可以投入更多算力、更大團隊,但很難做到這種模型與產品的深度結合,流程太長,部門太多,反饋鏈條一旦拉長,速度優勢就會被稀釋。
這種效率優勢最終體現在成本結構上。謝旭璋在接受晚點采訪時透露,愛詩「平均每月用的訓練資源不到千卡,成本大概只有同行的 10%」。
這是一種結構性的成本優勢,而不是靠壓縮預算換來的短期節省。用謝旭璋的話說,是模型架構、算法、工程、產品能力的綜合優勢。
當模型優化方向始終貼著真實需求在走,就能減少在錯誤的方向上浪費算力;產品反饋能實時指導訓練策略,每一次迭代的投入產出比都會更高。
V5.6 生成視頻
從 2024 年 1 月 PixVerse 網頁版正式上線,到 2026 年初 V5.6 發布,愛詩科技連續更新 8 個主要版本,平均每兩個月就有一次大的模型升級。
這種迭代密度的背后,正是模型與產品一起訓練的方法論在起作用:
V2(2024 年 7 月):多段視頻生成與局部重繪筆刷上線,用戶從單純「生成一段」開始走向「編輯與創作」;
V3(2024 年 10 月):特效模式上線,「抽卡概率」從隨機提升至接近確定性,這是 PixVerse 從創作工具邁向大眾產品的真正節點;
V3.5(2024 年 12 月):生成時間壓縮至 10 秒內,極大降低用戶等待成本;
V4(2025 年初):「準實時生成」能力出現,5-7 秒生成 5 秒視頻;
V4.5(2025 年 5 月):參數量與訓練數據集指數級擴張,全球用戶達 6000 萬;
拍我AI (2025 年 6 月):PixVerse 國內版「拍我AI」發布,同步上線網頁端及移動端應用;
V5(2025 年 8 月):Agent 創作助手上線,用戶不再需要學習 Prompt 語法,口語化意圖自動轉化為模型指令,API 生態同步開放;
V5.5(2025 年 12 月):「分鏡 + 音頻」一鍵生成,國內首次實現畫面與聲音的同步協同,完整敘事能力成型;
V5.6 (2026 年 1 月 26 日 ):模態大模型,支持分鏡和音畫同步生成。
在權威 AI 評估機構 Artificial Analysis 最新發布的視頻生成模型排行榜中, PixVerse V5.6 位列全球第 2 位,持續領跑全球視頻生成模型第一梯隊。
![]()
![]()
這種迭代密度在 AI 視頻行業里相當罕見,愛詩跟很多同類產品的策略不同:持續往前推,每一版解決真實用戶在當下遇到的真實問題,同時在架構層面為下一次躍升保留余量。
背后的可行性,恰恰是 DiT 架構的可擴展性所賦予的,每次模型升級,不需要推倒底層重來,而是在既有基礎上加寬加深。
3 億美元,押注不只是 AI 視頻
但鼎暉最終決定領投這次 C 輪,押注的不只是 V5 的榜單排名,可能還有 2026 年 1 月剛剛發布的 PixVerse R1。
R1 可以說是愛詩科技迄今最激進的一次產品技術迭代。
![]()
過去的視頻生成,無論做得多精致,本質上都是「把指令翻譯成一段視頻文件」,是一次性的、離線的渲染過程。用戶輸入指令,等待生成,拿走一段固定的視頻文件。這像是在沖洗膠卷,你拍完就拍完了,要等沖洗出來才能看,看完也無法再改。
R1 不是這個邏輯,它不再只是「生成一段視頻」,是一個能實時響應用戶交互指令的「世界模型」:用戶可以在視頻播放中輸入指令,改變光影、替換背景、控制角色走向,系統響應延遲約 2 秒,輸出為 1080P 超高清實時視頻流。
背后依賴的是愛詩自研的「瞬時響應引擎(IRE)」,它將計算步驟從數十步壓縮至 1-4 步,實現從「離線渲染」到「實時交互」的重要升級。
謝旭璋判斷,未來視頻和游戲的邊界一定會越來越模糊。一旦視頻變得能交互了,全新的內容、用戶和創作機會就會涌現。
謝旭璋在采訪中透露,R1 發布后,游戲行業的 B 端客戶來得最多,「以后的游戲開發不用再像過去那樣熬漫長的大周期了,無論是玩法、畫面還是劇情,AI 都能讓它變得更輕量、更具想象力。更重要的是,它能幫那些不懂代碼但有創意的人,把點子變成真正的游戲。」
R1 的潛在價值,已經超出了「更好的視頻生成工具」這個范疇。如果說 PixVerse V5 是在爭視頻生成工具的頭部位置,R1 是在定義是一個完全不同的品類——實時交互式內容體驗的操作系統。它的競爭對手,不再是 Runway 或可靈,是 Unity、Unreal Engine,甚至是尚未出現的內容消費形態。
![]()
回看愛詩科技這筆 C 輪的投資人結構,其實本身就是一個信號。
鼎暉三支基金聯合領投,背后是對這家公司進入規模化階段的系統性判斷。產業資本中國儒意(影視內容)和三七互娛(游戲)的入場,指向了 R1 要重構兩個行業:互動影視制作和 AI 原生游戲開發。
進入 2026 年,整個 AI 視頻賽道也在加速進入下半場。前有 Seedance 2.0 風靡全球,現在 愛詩科技成為新的獨角獸。
目前,PixVerse 全球注冊用戶突破 1 億,MAU 超過 1600 萬;國內版拍我 AI 與 PixVerse 形成雙軌并行格局;愛詩科技也是 2025 年聯合國「人工智能向善全球峰會」上唯一入選的中國 AI 視頻應用,并于同年正式加入聯合國大學全球人工智能網絡。
![]()
愛詩科技這筆 3 億美元融資,可以理解為資本對一個即將到來時代的投票。AI 視頻的下一個戰場,不在參數量,不在榜單排名,關鍵在于誰先把視頻從一個「消費品」變成一個「交互界面」。
不過,知道技術路線在哪里會拐彎,和相信這條路最終走得通,是兩件事。
在 AI 這個行業,「選對了方向」本身并不稀缺。稀缺的是,在方向被主流認可之前那段空白期里,有沒有足夠具體、足夠扎實的東西,支撐你不搖擺。
三年里愛詩科技在這條路線沒有在中途斷裂,很難說是提前預見了終點的全知視角,而是每走一步,下一步的方向都從上一步的技術現實中自然長出來。
視頻正在從被觀看的內容,變成被觸碰的世界。因此,這三億美元所押注,遠不止 AI 視頻的未來,而是那個「萬物皆可交互」的時代。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.