CVPR 2026｜AI開始會(huì)拍電影了：一分鐘十鏡頭，全程不崩劇情

2026-04-10 12:06:27　來源: 新浪財(cái)經(jīng)

河北舉報(bào)

分享至

來源：市場資訊

安照崇現(xiàn)為哥本哈根大學(xué)博士生，隸屬于 Pioneer Centre for Artificial Intelligence 和 ELLIS 項(xiàng)目，導(dǎo)師為 Serge Belongie 教授。他于 2023 年獲得蘇黎世聯(lián)邦理工學(xué)院（ETH Zurich）計(jì)算機(jī)科學(xué)碩士學(xué)位，導(dǎo)師為 Luc Van Gool 教授。他的研究方向主要包括三維理解、視頻生成以及多模態(tài)模型。

多鏡頭視頻生成是自然世界敘事的重要表達(dá)形式，也是視頻生成領(lǐng)域中一個(gè)挑戰(zhàn)性的研究方向。

與單鏡頭視頻不同，多鏡頭視頻并不是簡單地把幾個(gè)片段拼接起來，而是要求模型同時(shí)處理兩類信息：一類需要在不同鏡頭之間保持穩(wěn)定，例如人物身份、環(huán)境主體和故事主線；另一類則需要隨著敘事自然變化，例如視角切換、動(dòng)作推進(jìn)和場景轉(zhuǎn)場。

這一任務(wù)通常可以定義為：給定每個(gè) shot 的 prompt，以及一個(gè)可選的初始圖像作為首幀條件，模型需要生成多個(gè) shot，并同時(shí)維持跨 shot 的內(nèi)容一致性和對每個(gè) shot prompt 的準(zhǔn)確遵循。

這意味著，模型必須能夠持續(xù)維護(hù)長程的跨鏡頭上下文。然而，現(xiàn)有方法大致存在兩類局限：一類方法依賴固定窗口，在窗口內(nèi)同時(shí)生成多個(gè) shot，但隨著窗口滑動(dòng)，較早鏡頭的信息會(huì)被丟棄；另一類方法先生成各 shot 關(guān)鍵幀，再以關(guān)鍵幀為條件生成各 shot，但這樣限制了 shot 間交互，難以有效傳遞 shot 內(nèi)更復(fù)雜的敘事細(xì)節(jié)。

最近，來自 Meta 與 University of Copenhagen 的研究者提出了 OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory（收錄于 CVPR 2026）。

論文地址：https://arxiv.org/pdf/2512.07802

這項(xiàng)工作聚焦于一個(gè)核心問題：如何在生成多鏡頭視頻時(shí)，有效保留長程跨鏡頭上下文，從而實(shí)現(xiàn)更強(qiáng)的敘事一致性。其核心思路，是為多鏡頭視頻生成建立一種全局但緊湊的跨鏡頭記憶機(jī)制。

圖 1 OneStory 可生成分鐘級、十鏡頭的長視頻故事，在復(fù)雜敘事推進(jìn)過程中保持人物與場景的一致性；同時(shí)統(tǒng)一支持 image-to-multi-shot 與 text-to-multi-shot 兩種生成設(shè)置，并在 out-of-domain 場景中展現(xiàn)出良好的泛化能力。

OneStory 做了什么？

圖 2 OneStory 的訓(xùn)練與推理流程示意圖。訓(xùn)練階段，模型以前兩個(gè) shot 為條件生成第三個(gè) shot；推理階段，模型根據(jù)輸入 caption 按 shot-by-shot 的方式逐步生成多鏡頭視頻。

OneStory 首先將多鏡頭視頻生成重新表述為一個(gè)更自然的問題：next-shot generation。也就是說，模型不再一次性生成整段長視頻，而是像講故事一樣，基于前面已經(jīng)生成的鏡頭，生成下一個(gè)鏡頭（每個(gè)鏡頭同時(shí)生成）。這樣的設(shè)定實(shí)現(xiàn)了 shot-by-shot 的自回歸式多鏡頭生成。

與此同時(shí)，OneStory 以預(yù)訓(xùn)練的 image-to-video 基礎(chǔ)模型作為初始化，因此可以自然繼承基礎(chǔ)模型本身強(qiáng)大的視覺條件生成能力。通過這樣的任務(wù)重構(gòu)，OneStory 的第一個(gè) shot 可以由用戶通過使用任一 text-to-video 或 image-to-video 模型得到，而后續(xù) shot 則由 onestory 根據(jù)輸入的 shot prompt 逐步生成。

也正因如此，OneStory 能夠在同一個(gè)模型中統(tǒng)一支持 text-to-multi-shot video 和 image-to-multi-shot video 兩種生成方式。

圖 3 OneStory 中 Frame Selection 和 Adaptive Conditioner 的結(jié)構(gòu)示意圖。兩者共同實(shí)現(xiàn)了自適應(yīng)記憶建模，從而支持全局但緊湊的跨鏡頭上下文表示，用于連貫的敘事生成。

在此基礎(chǔ)上，OneStory 設(shè)計(jì)了兩個(gè)關(guān)鍵模塊。

1. Frame Selection：找到真正相關(guān)的歷史 memory

并不是所有前序鏡頭對當(dāng)前鏡頭的生成都同等重要。

例如，第 1 個(gè)鏡頭中出現(xiàn)主角，第 2 個(gè)鏡頭切換到配角，第 3 個(gè)鏡頭又回到主角。那么在生成第 3 個(gè)鏡頭時(shí)，第 1 個(gè)鏡頭往往比第 2 個(gè)鏡頭更關(guān)鍵。基于這種跨鏡頭相關(guān)性不均等的現(xiàn)象，OneStory 引入了 Frame Selection 模塊，從所有歷史鏡頭中自動(dòng)挑選出與當(dāng)前鏡頭 prompt 在語義上最相關(guān)的一些幀，作為當(dāng)前 shot 生成時(shí)的 memory。

這一設(shè)計(jì)不僅避免了固定窗口滑動(dòng)帶來的遺忘問題，也使模型能夠真正構(gòu)建起全局的跨鏡頭上下文。

圖 4 與以往方法按時(shí)間順序機(jī)械分配 patchifier 不同，Adaptive Conditioner 根據(jù)內(nèi)容相關(guān)性動(dòng)態(tài)分配不同粒度的 patchifier，從而更高效地利用跨鏡頭記憶。

2. Adaptive Conditioner：把 memory 壓縮成高效條件信息

僅僅「記住」還不夠，如何高效地將這些歷史信息輸入生成器同樣關(guān)鍵。

OneStory 的 Adaptive Conditioner 會(huì)根據(jù) Frame Selection 模塊預(yù)測的重要性，對選中的歷史幀進(jìn)行自適應(yīng) patchification：更重要的信息保留更細(xì)粒度的表示，不那么關(guān)鍵的信息則被更強(qiáng)地壓縮。這樣一來，模型就在計(jì)算成本可控的前提下，將歷史上下文轉(zhuǎn)化為緊湊而有效的條件信號，并直接注入生成過程。

圖 5 多 shot 視頻數(shù)據(jù)收集流程

此外，論文沒有沿用「整段故事需要一個(gè)總腳本，再輔以分鏡頭定義」的數(shù)據(jù)構(gòu)建方式，而是僅保留分鏡頭 prompt，并將每個(gè)鏡頭寫成帶有前文指代關(guān)系的描述。這樣的數(shù)據(jù)形式更貼近真實(shí)的故事講述邏輯，也讓用戶的提示控制更加簡化。

實(shí)驗(yàn)結(jié)果

圖 6 定性比較結(jié)果。OneStory 能夠更忠實(shí)地遵循 shot-level captions，生成在內(nèi)容和敘事上更加連貫的多鏡頭視頻。

各實(shí)驗(yàn)表明，OneStory 能夠在復(fù)雜提示不斷變化的情況下持續(xù)推進(jìn)敘事，同時(shí)保持人物和環(huán)境的一致性。論文中也提供了對 OneStory 在復(fù)雜敘事場景中的表現(xiàn)分析，包括：

外觀變化下的人物一致性保持
從大全景到局部特寫時(shí)的空間定位能力
人與物體交互發(fā)展過程中的敘事延續(xù)能力

這些現(xiàn)象說明，OneStory 學(xué)到的并不只是表層的視覺連續(xù)性，而更接近于一種跨鏡頭敘事理解能力。

OneStory 的意義是什么？

如果說單鏡頭視頻生成解決的是「把一段畫面做出來」，那么多鏡頭視頻生成真正要解決的，就是「把一個(gè)故事講下去」。

OneStory 給出的答案是：不是一味拉長上下文窗口，也不是依賴單張關(guān)鍵幀，而是通過自適應(yīng)記憶建模，在全局信息建模能力和計(jì)算效率之間找到平衡。它讓模型在跨鏡頭生成時(shí)，既能夠記住過去，又不會(huì)被冗余信息淹沒。

對于長視頻生成和可控世界模型而言，這是一條非常值得關(guān)注的方向，因?yàn)?OneStory 為視頻模型提供了一種有效的自適應(yīng) memory 管理機(jī)制，也為更長時(shí)程、更高一致性的視頻生成打開了新的可能。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.