![]()
在生成式 AI 領域,視覺分詞器(Visual Tokenizer)通常采用固定壓縮率 —— 無論是單調的監控畫面,還是復雜的動作大片,都被切分為等量的 Token。這種 "一刀切" 的做法不僅會造成巨大的計算冗余,也產生了 “信息量” 不同的 Token,不利于下游理解生成任務處理。
近日,來自斯坦福大學、英偉達(NVIDIA)Cosmos 團隊和新加坡國立大學的研究團隊提出了一種基于信息論的自適應視頻分詞器InfoTok,能根據視頻內容復雜度自動分配 Token 數量,實現了2.3 倍壓縮率,推理速度比同類自適應方案11 倍的同時取得了更優的重建質量,為高效視頻理解與生成開辟了新的可能。該論文在已被 ICLR 2026 接收為 Oral 口頭報告,第一作者為斯坦福大學 Haotian Ye 和新加坡國立大學 Qiyuan He。
![]()
- 論文標題:InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression
- 論文鏈接:https://arxiv.org/abs/2512.16975
- 項目主頁:https://research.nvidia.com/labs/dir/infotok/
- 代碼及權重:https://github.com/YWolfeee/InfoTo
![]()
![]()
![]()
左——原始視頻;中——InfoTok的重建視頻;右——柱狀圖顯示每幀平均 Token 使用率。亮色區域表示分配了更多 Token,黑色區域表示被大幅壓縮。可以看到,分詞器自動在動態、信息豐富的區域投入更多 Token,而在靜態區域大幅節省。
動機:什么才是好的視頻分詞器?
當前的視覺基礎模型 —— 無論是大語言模型驅動的視頻理解,還是擴散模型、自回歸模型支撐的視頻生成 —— 都遵循一套共同的范式:先將原始像素壓縮為緊湊的潛在表示(Token),再對這些表示進行建模。這第一步,就是分詞(Tokenization)
那么,什么樣的視頻分詞器才算 "好"?理想情況下,一個優秀的視頻分詞器至少應滿足三個標準:
- 高壓縮率:大幅縮減數據量,使下游生成模型能夠高效運行。
- 高保真度:壓縮后的 Token 應保留足夠信息,支持高質量的視頻重建。
- 語義豐富:Token 應捕獲視頻中語義上有意義的內容,而非機械切分。
然而,當前主流的視覺分詞器并不滿足這些標準。它們將視頻幀切分為均勻網格,并以固定壓縮率對每一段視頻進行壓縮 —— 無論是幾乎靜止的風景延時還是車輛穿梭的繁忙街景,無論是細膩復雜的人物表情還是簡單純凈的湛藍天空,竟然都會消耗完全相同數量的 Token。直覺告訴我們這并不是合理的:復雜的畫面理應比簡單的畫面消耗更多 Token。
我們為什么會產生這樣的直覺?復雜與簡單畫面的區別應該怎么刻畫?怎樣的壓縮程度才是合理、第一性的?為了回答這些問題,InfoTok 團隊將目光投向了信息論,尋找一個有理論保障的答案。
理論:為什么固定壓縮率的分詞器注定次優?
讓我們把直覺形式化。回看上面的演示視頻 —— 第二個視頻兩側是大面積的純白區域,信息量為零,而固定速率的分詞器仍然對這些空白區域投入了與中央動態內容完全相同的 Token 數量。這顯然是浪費。問題在于如何用數學語言定義這種 "浪費"
InfoTok 團隊的思路是參考經典信息論。香農(Shannon)的信源編碼定理告訴我們一個深刻的道理:一個信號越容易被預測,表示它的信息量越少,因而所需的 Token 也應該越少;反之,越稀有、越出乎意料的內容,就包含了越多的信息量,因而應分配越多的比特。 換言之,這種可預測性在信息論中被認為是衡量信息量(也即編碼需要的 Token 數)的關鍵。
香農經典的編碼定理說明,當這一原則被嚴格遵循時,總體表示成本將達到理論最優。研究團隊將這一原則嚴格推廣到了視頻分詞場景:
![]()
定理(最優自適應分詞):T 為任意碼本大小為 C 的分詞器;N_x 為分配給視頻 x 的 Token 數量;p(x) 為數據分布下視頻 x 的概率。期望 Token 數以熵為下界,且理想情況下可以達到。
![]()
![]()
Huffman 編碼類比:在字母編碼中,Huffman 編碼為高頻字母分配短碼——同樣的原則應當應用于視頻 Token 的分配。
回到上面的視頻示例:純白邊框是高度可預測的 —— 幾乎零信息 —— 但固定壓縮率分詞器卻對它們投入了與動態內容等量的 Token。這正是低效的根源:它違反了高效壓縮最基本的原則。
方法:從理論到實踐
理論告訴我們最優分詞應該自適應地匹配每段視頻的信息量。但落地時面臨兩個具體問題:
1.該分配多少 Token?定理說答案取決于 p (x),但我們無法直接計算視頻的真實似然概率。如何在實踐中估計合適的 Token 數量?
2.確定數量后如何編碼?標準分詞器產生固定長度序列。我們需要一種能壓縮到可變數量 Token 并且仍然重建良好的架構。
InfoTok 用兩個對應的組件解決了這兩個挑戰:ELBO 路由器(決定分配多少 Token)和自適應壓縮器(執行變長編碼)。二者作為即插即用插件,架設在任何現有固定壓縮率分詞器(本文使用 NVIDIA 推出的 Cosmos Tokenizer)之上。
![]()
InfoTok 框架總覽:路由器根據視頻復雜度決定 Token 數量 N_x;自適應壓縮器將固定長度嵌入轉換為 N_x 個離散 Token。
ELBO 路由器:讓信息復雜度自動 "定價"
雖然我們無法直接計算 p (x),但可以計算其證據下界(ELBO)—— 一個可計算的代理指標,用于衡量視頻在基礎分詞器下的 "可預測性"。這引出了一個關鍵的理論結果:
![]()
定理(InfoTok 的近最優性):如果使用基于 ELBO 的路由器并最小化重建損失來訓練,期望 Token 數以熵為界,差距項在 ELBO 緊致時趨于零。
直白地說:使用 ELBO 來決定 Token 數量,可以實現近最優的壓縮效果。 映射關系非常直觀:
- ELBO 高(內容可預測 / 簡單場景) → 分配更少 Token
- ELBO 低(內容復雜 / 出乎意料) → 分配更多 Token
具體來說,路由器的計算公式為:
![]()
![]()
其中 β 控制平均壓縮水平。最關鍵的優勢在于:ELBO 可以直接從任何預訓練的分詞器中廉價計算得到,無需額外模型。
自適應壓縮器:變長序列的智能打包
路由器確定了 Token 預算 N_x 后,基于 Transformer 的自適應壓縮器負責將固定長度的嵌入智能地 "打包" 進變長的 Token 序列中。具體而言,他會動態地要求輸出時信息量低的 Token 位置被省略,并通過端到端網絡訓練將這部分的信息濃縮到一個由路由器事先決定長度的 Token 序列中。
- 當預算吃緊時,它學會濃縮精華,每個 Token 承載更多信息;
- 當預算充足時,它則保留完整細節,信息分散到更多 Token 中。
需要注意,Token 被省略的位置由于信息量低,經過網絡后信息可以幾乎無損的合并到更短的輸出序列中,此時這些被保留的 Token 的語義將會有所改變 —— 從結果上看,每個 Token 最后的信息量(也即 p (x) )將會趨于相等,從而實現壓縮、保真度、語義的平衡。具體的實現代碼請見論文。
實驗結果
可視化效果:自適應分詞隨場景、時間動態調整編碼
以下展示了 InfoTok 在不同場景下生成的 Token 掩碼。每個動圖中:左側為原始視頻,中間為 InfoTok 的重建視頻(亮區表示高信息量區域,被分配了 Token;暗區表示低信息量區域,信息被壓縮到其他 Token 中),右側柱狀圖顯示每幀的 Token 使用率。
第一人稱場景(EgoExo4D 數據集):
![]()
由于相機運動導致整個畫面都在變化,Token 分布相對均勻 —— 但周圍黑色邊框(相機視野之外)由于高度可預測,被完全壓縮掉。
駕駛場景(BDD 數據集):
![]()
Token 自動集中在移動車輛和道路邊緣,而靜態的天空和路面幾乎不消耗 Token。
機器人操作場景(Bridge 數據集):
![]()
機械臂和被操作物體處高亮,固定的桌面背景保持黑暗 ——Token 精準地 "吸附" 在了任務相關的區域。
可視化效果:不同壓縮級別下的重建質量
InfoTok 的一個獨特能力是可以在任意 Token 長度下進行分詞,在壓縮率和質量之間優雅地權衡。下圖展示了同一段駕駛視頻在五個壓縮級別下的重建效果(從原始到逐步提高壓縮率):
![]()
簡單的高速公路場景(背景靜態)即使在極高壓縮下仍保持出色畫質,而復雜的交叉路口則需要更多 Token 來保留細節 —— 這正是自適應分詞的價值所在。
定量指標
視覺效果令人信服,但數字是否也支持這一結論?研究團隊在標準視頻重建基準(TokenBench 和 DAVIS)上進行了全面評估,以 Cosmos 分詞器為基礎,對比了兩種 InfoTok 變體 ——InfoTok(固定 ELBO 路由器)和 InfoTok-Flex(靈活路由器)—— 與固定壓縮率基線以及基于啟發式的動態編碼器 ElasticTok。
![]()
實驗結果:在 TokenBench 和 DAVIS 上對固定長度和自適應分詞器的評估。在兩種壓縮級別(0.81 和 0.56)下與 ElasticTok 對比,最佳結果以粗體標注。
關鍵結論:InfoTok 可以在節省 20% Token 的情況下實現無損重建,在 2.3 倍壓縮率下仍然全面超越 ElasticTok。
更重要的是,基于 ELBO 的路由器在所有壓縮級別上都一致地優于啟發式方法 —— 而非僅在某個特定工作點上:
![]()
全面對比:質量指標(PSNR↑、LPIPS↓、FVD↓)vs. 壓縮率(BPP??),(a-c) TokenBench,(d-f) DAVIS,(g) 推理效率。InfoTok 在所有壓縮級別上全面占優,同時推理效率顯著更高(快 11 倍)。
結語與展望
InfoTok 證明了在 AI 飛速發展、大模型無所不能的今天,我們仍可以從經典信息論中汲取靈感大幅優化 AI 效率。通過用基于 ELBO 的路由器替代啟發式壓縮策略,InfoTok 以更少的 Token 實現了更好的重建質量 —— 并且在現有分詞器之上僅需極小的額外開銷。
研究團隊指出了幾個令人期待的未來方向:
- 連續 Token:InfoTok 當前工作在離散 Token 空間。然而,其信息論框架同樣適用于連續潛在表示 —— 自適應地分配潛在維度或通道。這有望彌合離散分詞器(用于自回歸模型)與連續 VAE 編碼器(用于擴散模型)之間的鴻溝,提供統一的自適應壓縮框架。
- 下游視頻生成:將自適應分詞深度整合進視頻生成管線,讓變長 Token 序列同時帶來質量和效率的提升。
- 超越視頻:InfoTok 背后的信息論原則并不局限于視頻 —— 圖像、3D 場景、多模態數據同樣存在非均勻的信息密度分布,都可以從自適應分詞中獲益。
隨著這一技術的普及,我們或許離更長、更細膩、更高效的 AI 視頻生成時代又近了一步。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.