網易首頁 > 網易號 > 正文申請入駐

清華、西交聯合開源發布Cheers : 更簡潔、更高效統一多模態路線

2026-03-26 14:20:02　來源: 機器之心Pro

河北舉報

分享至

論文標題：Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation
項目地址：https://github.com/AI9Stars/Cheers
模型地址：https://huggingface.co/ai9stars/Cheers
HF Daily Paper：https://huggingface.co/papers/2603.12793
論文鏈接：https://arxiv.org/abs/2603.12793

過去幾年，多模態模型在理解任務上快速演進，圖像問答、OCR、視覺推理、跨模態對話等能力不斷提升；與此同時，圖像生成模型也在視覺質量、指令遵循和細節表達上持續突破。下一步一個自然的問題是：能否用同一個模型，同時做好理解與生成？這正是統一多模態模型（Unified Multimodal Models, UMMs）正在回答的問題。

但這件事并不容易。理解任務更依賴穩定、抽象、適合推理的語義表示，生成任務則要求模型保留充足的局部細節與高頻紋理，以保證圖像質量和真實感。近期越來越多工作都注意到，理解與生成在視覺表征和優化目標上存在天然張力，如何在同一個框架中兼顧二者，仍然是統一多模態建模最核心的挑戰之一。

今天，我們正式介紹并開源發布 CHEERS。CHEERS 提出了一種面向統一多模態理解與生成的架構路線：在盡可能保持系統簡潔的前提下，將理解任務與生成任務統一到同一個端到端框架中進行聯合優化，并最大程度繼承開源預訓練模型已有知識。我們希望它回答的不只是 “能否統一”，更是能否以一種足夠簡潔、足夠高效、足夠開源友好的方式完成統一。Cheers 實現了：

統一多模態理解與生成的端到端框架
保持架構簡潔，同時實現理解與生成聯合優化
零額外預訓練成本，充分繼承開源預訓練模型知識，相對傳統 VLM 僅增加輕量 VAE 與 Cascaded Flow Matching Head
更少訓練數據下達到同規模 SOTA / 領先性能
4× token compression，兼顧統一建模與高效率

一、當前統一多模態模型的技術方案？

從視覺表示角度看，現有工作又大致呈現出幾種典型思路。有些方法會把理解和生成放在相對分離的視覺空間里，各自優化、互不干擾，這類方案任務性能通常不差，但統一性相對有限；有些方法更強調單一語義空間，希望讓同一套表示同時支撐理解與生成，但往往會在結構細節上遇到瓶頸；還有一些方法嘗試融合異構特征，把語義信息與像素級信息匯總到一起，但融合之后也容易出現干擾和拉扯。CHEERS 的位置，正是在這些路線之間給出一個更加克制的答案：不追求把所有問題壓縮成一種表示，也不走完全分離的雙系統，而是在統一框架下重新安排語義與細節的職責。

二、CHEERS，一條現實可行的統一路線

在這個問題上，CHEERS 的出發點非常明確：不是為了統一而引入龐大而復雜的組合系統，而是在保留已有開源預訓練能力的基礎上，用盡可能小的架構增量完成從 “理解模型” 到 “理解 + 生成統一模型” 的升級。具體來說，CHEERS 構建了一個統一多模態大模型框架，通過統一視覺 tokenizer、LLM 主干以及 Cascaded Flow Matching Head，將多模態理解與圖像生成納入同一條端到端鏈路。

這個設計最重要的價值在于兩點。第一，它實現了理解與生成任務的同時優化。同一個 LLM 主干既服務于文本自回歸與多模態理解，也服務于圖像生成過程中的條件建模，從而讓統一不再停留在 “模塊拼裝”，而成為真正端到端的聯合建模。第二，它盡可能繼承了開源預訓練模型已有知識。CHEERS 不需要為了 “統一化” 額外再做一輪昂貴的大規模預訓練，而是完整保留并利用已有預訓練能力，讓統一多模態模型的構建成本顯著降低。對于開源社區而言，這一點尤其重要，因為真正能被持續復現、擴展和使用的路線，不只是性能強，更要足夠現實。

三、CHEERS 如何處理 “語義” 和 “細節”

近期不少統一多模態工作都已經觀察到類似經驗：理解更偏向穩定語義，生成更依賴細節保真。這說明問題本身正在逐漸被行業看清。在 CHEERS 中，視覺信息被組織為兩類互補成分：語義 token 用于多模態理解和生成條件控制，細節殘差則用于在生成過程中補足高頻紋理和局部保真。

對應地，在生成階段，CHEERS 采用 “先語義、后細節” 的級聯方式：先生成全局語義布局，再通過語義門控逐步注入細節信息，對局部紋理進行修正和增強。同時我們發現，即便沒有對高頻細節注入強度做顯式監督，模型也會在生成后期自然增強對高頻細節的使用。這種現象非常像人類作畫時 “先搭結構、再補內容、后補紋理” 的過程，也說明 CHEERS 的設計并不是機械堆疊模塊，而是在建模上更貼近理解與生成各自的需求節奏。

四、小數據，大性能：

更重要的是特征空間的統一

從實驗結果來看，CHEERS 在同等規模統一多模態模型中取得了很強的綜合表現。在多項主流理解基準與生成基準上，CHEERS 都展現出競爭性甚至領先的結果。論文中，CHEERS 在 GenEval 上達到 0.78，在 MMBench、MMStar、AI2D、MathVista 等理解基準上也取得了穩健表現。同時，CHEERS 還實現了 4× token compression，為高分辨率視覺理解與生成提供了更高效率的統一建模方式。

相比單純列舉性能，我們更想強調另一點：CHEERS 達成這些結果時，使用的數據規模顯著小于部分同類方法。CHEERS 總訓練樣本規模為 83M，相比一些同類工作節省了約 2× 甚至更多的數據需求，仍然能夠達到同規模 SOTA 或領先性能。這說明 CHEERS 的優勢不只是 “訓得出來”，而是它對已有預訓練知識具有更高的繼承和利用效率。某種意義上，這比單純提升某個 benchmark 分數更值得關注，因為統一多模態走到今天，真正稀缺的已經不只是數據規模，而是如何把已有知識體系更高效地組織起來。

五、總結

在我們看來，CHEERS 的意義不止體現在結果上，也體現在它對統一多模態研究提供了一些值得繼續思考的方向。

第一個啟發是：統一模型真正需要統一的，未必是單一視覺表示本身，而可能是一個足夠穩定、足夠高效的信息接口。如果不同任務對視覺信息的需求本來就不同，那么比起強行讓所有能力共享同一份表征，更重要的也許是讓不同信息以合適方式進入統一主干。

第二個啟發是：理解與生成并不一定互相拖累，關鍵在于架構設計是否合理。論文表明，在統一架構設計下，聯合訓練生成目標不會顯著破壞理解能力，反而有機會帶來細粒度感知層面的增益。

第三個啟發是：高效統一多模態，不一定意味著更重、更大、更復雜。CHEERS 用簡單的系統改動，完成了從傳統理解型 VLM 到統一模型的升級，這為后續很多開源工作提供了一種更現實的參考路徑。

第四個啟發是：效率問題本身就是統一多模態問題的一部分。CHEERS 的 4× token compression 不只是工程優化，也意味著高分辨率理解與生成可以在更現實的計算預算下被同時納入一個系統中，這對未來更長上下文、更復雜視覺輸入的統一建模都很關鍵。

我們期待的不只是一個更強的模型，而是一條讓更多研究者和開發者都能繼續往前推進的路線。因此我們開源了訓練、推理測評代碼和模型權重，并于近期開源微調數據。希望大家可以支持我們的工作。

作者簡介：

張易辰，碩士，高級工程師，專注于理解生成統一方向，面向基礎模型架構設計、大模型預訓練進行了相關研究；彭達，碩士在讀，專注于多模態理解和生成、高效推理，面向基礎架構、預訓練、視頻高效編碼進行了相關研究；通訊作者郭宗昊，博士，清華THUNLP訪問學者，專注于多模態智能，面向多模態基礎模型架構設計、大模型預訓練與模型深思考能力進行了相關研究，在CVPR、NeurIPS、IJCV等頂會頂刊發表論文20余篇，谷歌學術引用超2000次。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.