網易首頁 > 網易號 > 正文申請入駐

美團盯上原生多模態！路子還很野：把圖像語音都當成Token來預測

2026-04-03 14:21:46　來源: 量子位

北京舉報

分享至

Token，這下真成了智能世界的基本單位。

不是被定義出來的“詞元”，而是被一套全新的統一Token架構，直接壓進了現實建模的最底層。

過去一年，幾乎所有頭部大模型玩家，都在忙著重寫多模態的底層架構。

從谷歌、OpenAI到國內的字節、MiniMax，大家在實踐中逐漸形成共識——不走原生多模態，已經不夠、不行了。

但問題是，原生多模態到底該怎么走？到目前為止，業界并沒有一個統一答案。

直到這一次，一直悶頭搞AI的美團LongCat，歘的一下亮出新解法：

把圖片、語音，統統當成Token來預測。

聽起來有點離譜，但他們不僅這么做了，而且——

還做成了。

真原生、真統一

先回答一個基本問題：為什么要做原生多模態？

理由雖然很多，但核心只有一個：

目前業界主流的多模態大模型，本質上采用的是一套“拼湊式架構”——語言模型當底座，視覺、語音當外掛。

這種架構下，理解靠連續特征對齊（比如要理解圖片就得把圖片轉成語言能看懂的信號）、生成靠擴散模型，兩套系統各說各話，根本談不上真正的統一。

結果就是，中間“傳話人”一多，算力消耗飆升，信息也一路跑偏、流失。

而原生多模態，則從一開始就用一套統一的方式，把所有模態一起建模——不需要拼接、不需要傳話翻譯，所有模態共用同一套“語言”。

而這，正是美團LongCat做的事。

至于為什么說他們采用的方式很“離譜”，原因在于，他們把“離散自回歸”直接搬到了圖像和語音這種連續信號上。

眾所周知，依賴離散自回歸建模，“預測下一個Token”讓大語言模型一戰成名。

但當這套范式被搬到視覺上時，問題也隨之出現：

圖片是連續信號，不能像文本那樣天然離散，一旦強行切成Token（類似把一張圖分成幾塊），模型就會丟信息“變弱”。

因此，行業長期認為，離散視覺建模存在“性能天花板”。

但隨著美團LongCat一篇新論文的出現，這一認知被打破了——

文本、圖像、語音，可以被統一壓進同一個離散Token空間，用一套自回歸邏輯從頭建模，而且模型效果可以媲美主流頂尖模型。

從論文中可以看到，為這套理念提供支撐的，正是美團LongCat首創的離散原生自回歸架構——DiNA（Discrete Native Autoregressive ）。

DiNA核心只做一件事——把文字、圖像、語音都變成同一種東西，即離散Token。

這樣一來，無論模型是讀文字、看圖片還是聽聲音，本質上都是在預測下一個Token。

聽起來是不是仍有點抽象？不妨看看下面這張架構運行圖。

簡單來說，DiNA的一個完整“小周天”，大致會經歷以下三個過程：

輸入側：文本、圖像、語音各自經過自家Tokenizer，統一把原始信號轉成離散Token；
中間：所有Token匯入一個不區分模態的學習器，它只處理Token序列，所有理解、推理、生成都在這里完成；
輸出側：處理完的Token再通過各自的De-Tokenizer還原成圖像、音頻、文本。

這種架構設計帶來的好處顯而易見：

以前都是各管各的（文字模型管文字、圖片模型管圖片），現在所有模態都共享同一個自回歸骨干。

這意味著，甭管處理哪種模態，模型都用同一套參數、同一個注意力機制、同一個損失函數。

而這，無疑可以讓模型在訓練時更穩定，部署時更輕量。

訓練時，多模態數據互相補充，梯度信號更穩，不容易跑偏；部署時，一個模型頂三個，顯存省了，速度也快了。

空口無憑。

美團LongCat用LongCat-Flash-Lite MoE（總參數685億，激活僅30億）做基座，在這個框架上訓練出LongCat-Next。

結果發現，DiNA的MoE路由在訓練中逐漸學會了“分工”——不同專家開始偏好處理不同模態，激活的專家數量也比純語言模型時更多，這說明模型正在用更大容量支撐能力擴展。

說白了就是，為了多干活，找了更多專家。

再一個，前面提到了理解和生成的割裂問題（需要兩套系統）。

而在DiNA這里，它倆也變成了“預測下一個Token”這一件事——數學形式完全一樣，只是輸入輸出互換。

看到圖片，預測文字是“理解”；看到文字，預測圖片是“生成”。理解和生成一個模型全搞定。

至于具體效果嘛？實驗數據很能說明問題：

統一模型的理解損失僅比純理解模型高0.006，而生成損失比純生成模型低0.02。

這說明什么？理解不僅沒拖累生成，反而表現出協同潛力。

以及最后還有很重要的一點，那就是真·原生。

以前的多模態模型，本質上天天干的是“對齊”的活兒——不同模態之間“對話”需要靠“翻譯傳話”。

而現在，美團LongCat發現：

把不同模態的Token丟進t-SNE可視化之后，它們不是各占一角，而是混在一起，自然交融，而且不同的專家模塊開始自動偏好處理圖像、文字或語音。

這說明，模型不是在“拼湊”多模態，而是在內部長出了一個統一的多模態世界。

說到這里，懂行的朋友可能就問了：

OK，現在我們已經知道DiNA架構長什么樣、具體怎么運作的了，但這里還有一個關鍵問題沒有被提到：

它是怎么把不同模態離散成Token的？文本不必多說，至少得說清圖像和語音咋處理的。

而這，就要談到美團LongCat的另一項自研了。

所以，怎么“離散”的？

一般來說，基于以下兩點理由，離散建模一直被人說“不行”：

表征容量有限：離散Token就那么幾個，怕裝不下太多信息；
離散化損失：離散化過程會丟東西，比如一旦把連續信號切成塊，細節就容易漏掉。

但美團LongCat就說了，這些還真不是關鍵。

真正決定上限的，是離散Token本身是否具備語義完備性（Semantic Completeness）。

換言之，問題不在“要不要離散”，而在離散后的Token本身到底夠不夠“有內容”——既懂大意，又摳細節。

所以現在問題就變成了：怎么構建合適的表征基礎？

先說視覺。

對此，美團LongCat想了兩招。

第一招：先把基礎打好，讓信息在被離散前盡可能豐富、準確。

他們拿出語義對齊編碼器SAE（Semantic-and-Aligned Encoder），用來從圖像中提煉高信息密度、多屬性的特征。

不同于傳統對比學習（如SigLIP那種“看文字和圖片是否匹配”），SAE是通過大規模視覺-語言監督，像做閱讀理解一樣，把圖像描述、視覺問答、視覺推理統統學一遍。

結果就是，它提取的特征既有“這是什么”的語義，又有“長什么樣”的細節。

第二招：甩出自研視覺分詞器dNaViT，把SAE提煉出來的特征，逐級量化成離散Token。

怎么個逐級量化？dNaViT這里采用的是8層殘差向量量化（RVQ），通俗來講就是“分層打包”。

既然細節很多，那就第一層打包輪廓、第二層打包顏色、第三層打包紋理……

每一層只負責上一層沒包進去的“剩余信息”。

8層補下去之后，最后可以實現高達28倍的極致像素空間壓縮。

光壓縮還不算完，到了還原圖像的時候，dNaViT還有一套雙軌解碼器來為還原質量“保駕護航”。

結構像素解碼器：搭出低分辨率錨點圖，保布局；
擴散像素細化器：注入高頻紋理細節，讓畫面更完整清晰。

到這里，美團LongCat就完成了視覺離散的幾個關鍵步驟——SAE“先看懂”、dNaViT再壓縮和還原。

發現沒，和語言模型的Tokenizer一樣，dNaViT也把圖像的理解和生成放在同一套Token序列里閉環流轉了。

不過更關鍵的還在于，在LongCat-Next中：

視覺Token化這個過程完成的是圖像到離散ID的映射，真正的特征是原生學習的。

意思是，視覺Token化這個過程只負責把圖像轉成ID編號，至于這個編號代表什么含義，是模型自己學出來的，不是別人硬塞給它的。

在美團LongCat看來，這種從“借用模態”到“內生模態”的轉變，是原生多模態建模的核心。

還是舉一個例子。

從dNaViT的架構圖可以看到，雖然左邊輸入了三張尺寸完全不同的圖像，但經過中間的離散和右下邊的還原后，輸出的尺寸和輸入完全一致，細節也沒丟。

這就是“原生分辨率”的含義——無需任何額外動作（縮放、裁剪、填充），dNaViT可以實現任意分辨率的圖像編碼與解碼。

再說語音。

語音的離散思路和視覺基本一致——

先用OpenAI的Whisper編碼器提取聲音特征，然后用RVQ切成離散Token，最后用解碼器還原聲音。

唯一比較狠的一點是，在文本引導音頻的統一建模下，LongCat-Next同時支持并行生成與串行生成兩種策略，使得模型可以在生成速度與語音準確性之間靈活權衡。

想“快”（如實時語音對話）：可以走并行生成，延遲更低；
想“準”（如后期配音）：可以走串行生成，雖然過程慢一點，但文本對音頻的指導作用更強。

至于什么情況選哪個，也都是模型自己來決定。

通過隨機延遲對齊——訓練時隨機切換“一起出”和“先后出”，模型能自己學會平衡速度和準確度，實現又快又準。

至此，美團LongCat在LongCat-Next身上看到了：

離散表示并非信息的退化形式，而可以成為統一理解與生成的完備表達載體。

通過“離散”這種方式，文字、圖像、語音可以變成“同一種Token”——原生多模態的底層統一，由此實現。

跑分和背后的發現

具體效果可以看LongCat-Next的跑分情況。

這個基于LongCat-Flash-Lite（MoE）訓練的模型，沒有像傳統模型那樣給不同任務設計不同的專家模塊，而是采用“與模態無關”的MoE——由模型自行決定如何為各模態分配訓練資源。

結果大家也都看到了，憑借這套離散原生框架，LongCat-Next在視覺理解、圖像生成、音頻、智能體等多個維度上，都展現出與多模專用模型相當甚至領先的性能。

老實說，雖然LongCat-Next的成績不錯，但我還是有點懷疑“離散”是否真能work。

于是立馬讓模型識別一下桌面上的小白盒（反光下比較模糊）：

沒想到LongCat-Next成功識別了耳機盒上的所有關鍵參數：

當然，如果細扒每一項成績，你會發現背后還藏著這樣幾個關鍵點：

發現1：離散視覺沒有天花板

前文也提到，行業長期認為離散模型在做細粒度文本識別時，天然就不如連續模型。

因為離散化本身就是一個信息壓縮和丟失的過程，而細粒度文本識別恰恰對信息保真度要求極高。

但LongCat-Next這次用實力挑戰了這一觀點。

證據之一是，在OmniDocBench這個涵蓋學術論文、財報、行政表格等各種復雜文檔的多模態基準測試上，LongCat-Next的成績不僅超越同類多模態模型，還超過了專門做視覺理解的模型。

更重要的是，美團LongCat通過對照實驗發現，離散視覺的性能瓶頸并非來自“離散化本身”，而是來自數據規模。

在相同設置下對比離散模型（Discrete）和連續模型（Continuous）可以發現：

小數據下，離散模型確實弱于連續模型；但隨著數據規模不斷擴大，二者的性能差距會持續縮小。

繼續擴大數據規模，離散模型甚至可以和連續模型性能接近一致（near-parity）。

照理說，如果離散化本身存在不可突破的性能上限，那么隨著數據增加，這一差距理應在某個階段停止收斂，但實驗中并未觀察到這一“收斂停滯”。

所以論文給出了一個判斷——

離散建模并不存在內在性能天花板，其上限更多取決于數據規模與表征質量。

發現2：理解和生成可以協同

原理就不必多說了，咱直接亮成績：

在考察長文本渲染能力的LongText-Bench上（側重生成），LongCat-Next拿下93.15的高分。

與此同時，它還在考察數學推理能力的MathVista上（側重理解），斬獲83.1的領先成績。

理解和生成齊高，這說明理解不僅沒有損害生成，反而表現出協同潛力。

這也很好理解。以前它們分屬兩套系統，各有各的優化目標；現在卻被拉到了一起，理解學到的東西直接服務生成，兩者天然同向、越學越強。

發現3：經過原生多模態訓練后，不會折損文本能力

以前多模態訓練就像“端水”，要小心翼翼在各種模態的能力之間取得平衡。

但LongCat-Next就不一樣了。

圖像、音頻能力配上后，文本能力也沒被削弱——

在純文本任務上，LongCat-Next在MMLU-Pro和C-Eval上分別斬獲77.02和86.80的領先成績。

而且工具調用、代碼能力等個個不差。

還是那句話，當模型學會用同一種方式理解圖像、聲音和文字時，它對世界的理解無疑更上一層樓。

美團LongCat用實驗初步證明：

當不同模態都用同一套離散Token體系后，模型不再需要為不同模態、不同任務分別設計機制，而是可以用一套可擴展的方式去建模整個世界。

在這個意義上，離散建模并非一種妥協，而是另一條可擴展路徑。

這件事意味著什么？

不止于此。

把視角再往前推一步，你會發現一個有意思的“隔空呼應”：這項研究，幾乎正對上了LeCun和謝賽寧等人的判斷。

LeCun就不必多說了，誰都知道他一直批評“純文本LLM無法實現AGI”；謝賽寧則在對談張小珺時表示，語言本身是人類文明高度提煉的結構，相當于一種“捷徑”或“拐杖”，過度依賴語言會限制AI對真實世界的學習。

而要突破語言模型的局限性，統一的多模態預訓練，正是那條繞不開的路。

在近期公開的論文《Beyond Language Modeling: An Exploration of Multimodal Pretraining》中，LeCun等人決定不再把視覺當作輔助輸入，而是推進統一的多模態預訓練——

讓視覺和語言一樣，成為模型里的“first-class citizen”。

而美團LongCat這一步，正是把這條思路進一步推向工程化落地的體現——

在不推翻LLM、自回歸這些成熟體系的前提下，他們直接把圖像、語音、文字統統壓進了Token序列，并且做到了工業級可用。

怎么個工業可用？答案是：開源。

沒錯，美團LongCat這次不僅公開了技術論文，而且還把LongCat-Next及其分詞器開！源！了！

不過要想使用LongCat-Next，除了硬件上需要至少3張80GB顯存的專業顯卡（如英偉達A100/H100），軟件配置要求如下：

到這一步，當一套方案不僅在論文里成立，而且已經以開源的形式跑通工程閉環時，它對業界的意義除了多了一個新框架外，更重要的其實還在于——驗證了一條新路徑。

細究之下，在通往“原生多模態”的這條路上：

有人在做融合，語言模型當底座，視覺、語音當外掛，一心想讓不同模態更好協同；也有人更進一步做早期融合+MoE，不再依賴預訓練編碼器，從零開始聯合訓練，讓模型內部自己長出視覺和聽覺。

而美團LongCat更為直接——不走融合，不做對齊，直接把所有模態統統變成Token。

此時，模型面對的就不再是“多模態”，而是同一種可以被預測、被生成的序列。

某種程度上來說——

模態這個東西本身，也正在消失。

Paper: https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
GitHub: https://github.com/meituan-longcat/LongCat-Next
HuggingFace: https://huggingface.co/meituan-longcat/LongCat-Next
blog: https://longcat.chat/longcat-next/intro

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.