網易首頁 > 網易號 > 正文申請入駐

美團LongCat-Next：把圖像、聲音、文字都變成Token，然后呢？

2026-04-02 14:03:47　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

近日，美團發布了一項頗具分量的多模態研究成果 ——LongCat-Next

這是一款離散原生自回歸多模態大模型，基于 LongCat-Flash-Lite MoE 架構構建，總參數量達 68.5B，激活參數僅 3B，能夠在統一框架下同時處理文本、圖像與音頻三種模態。

該模型的出現，直接挑戰了多模態領域長期存在的一個認知：將視覺信息離散化為 Token 會導致嚴重的細節丟失，在 OCR、復雜圖表等細粒度理解任務上天然弱于連續特征模型。

LongCat-Next 是目前首個在純離散框架下，將上述細粒度視覺理解能力推至與專用連續模型相當水平的統一多模態模型，與同等參數量專用視覺模型 Qwen3-VL-A3B 相比毫不遜色。

在圖像生成方面，其長文本理解與文字渲染能力相較同類統一模型優勢顯著，整體生成質量可與專用文生圖模型 Flux-dev 相抗衡。

在音頻方面，語音識別與理解能力超越了 Gemini 3.1 Flash-Lite preview、MiMo-Audio 等同量級模型。

LongCat-Next 還破解了視覺理解與生成之間的優化沖突。

論文實驗表明，在同等 token 預算下，理解與生成的聯合訓練不僅沒有相互拖累，理解任務的訓練信號反而對生成質量有正向促進，這一結論與多數統一模型的實際經驗相悖。

當所有模態都以離散 token 的形式在同一嵌入空間中共同訓練后，模型內部自發涌現出一種跨模態的語義交融現象，視覺 token 與文本 token 在表示空間中形成交織分布。

論文地址：https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
GitHub：https://github.com/meituan-longcat/LongCat-Next
HuggingFace：https://huggingface.co/meituan-longcat/LongCat-Next
blog：https://longcat.chat/longcat-next/intro

下面，我們通過幾個具體 case 直觀感受下它的能力。

先睹為快，文圖音三模態初體驗

先來試下它的視覺理解能力

我們上傳一張愛樂之城配色的插花圖片，讓 LongCat-Next 識別其中的植物，并介紹各自特征。

提示詞：圖片中的花束包含哪幾種植物，分別有什么特征？

模型準確辨別出黃色多頭玫瑰、紫色洋桔梗、鼠尾草類香草及配葉植物，并對各自顏色、形態給出較為細致描述，還主動補充花束整體配色風格的分析。

我們又以三座風格各異的地標建筑為素材，考察模型對國內城市地標的圖像識別能力。

提示詞：這三個地方分別是哪里？

LongCat-Next 準確識別出北京「望京之眼」、廣州中銀大廈及南京青奧中心三處建筑，并對每座地標建筑的背景信息有所掌握。

比如提到廣州中銀大廈的網絡外號「蟑螂大廈」及其獨特造型，以及南京青奧中心由扎哈?哈迪德設計等細節。

下面這道圖形推理題除了考察模型的圖像理解能力外，還涉及到抽象規律的歸納。

提示詞：Which option should be chosen for this question?

LongCat-Next 抓住其中門道，每幅圖形均由外框與內部黑點兩個要素構成，并通過多組數據橫向比對，得出「外框邊數 - 黑點個數 = 2」這一隱藏規律，最終鎖定答案 B。

再看看圖像生成能力

LongCat-Next 生成的日出時分高山湖泊，無論構圖還是光影過渡，已接近專業風光攝影的質感。

prompt: A crystal clear mountain lake reflecting snow-capped peaks at sunrise. Still water, mirror-like reflection, pink and gold sky, pine trees along the shore.

下面這個 case 主要考察文字渲染能力。生成的馬克杯產品圖中，文字沒有變形或亂碼，整體呈現極簡風格。

prompt: A white mug on a wooden table with \"LongCat-Next\" printed on it in clean font. Simple background, morning light from a window, minimalist product photography.

LongCat-Next 生成的圣托里尼，色彩表現是最大亮點，藍頂白墻、三角梅、落日構成強烈且協調的撞色對比，很有氛圍感。

prompt: Santorini white buildings with blue domes overlooking the Aegean sea at sunset. Warm golden light, bougainvillea flowers, calm ocean, iconic Greek island view.

LongCat-Next 還支持任意分辨率輸出，即使是極端長寬比構圖需求，它同樣能穩定生成。

視覺之外，LongCat-Next 同樣將音頻納入了統一的離散自回歸框架。

音頻理解能力能像處理文本一樣，對聲音信號做出準確、連貫的響應，涵蓋語音內容識別與復雜場景語義理解等。

比如用四川話問它一道經典邏輯謎題，LongCat-Next 沒有出現識別偏差或語義丟失，四川話的語音信號被準確轉化為可推理的語義內容，并順暢進入后續邏輯分析流程。

這在一定程度上說明，LongCat-Next 的音頻離散化表示具備相當的魯棒性，方言、口音等聲學變體并不會成為理解鏈路上的斷點。

給它一段環境錄音，它從持續、有節奏的「咔噠」聲與汽笛聲中，準確判斷出錄制地點為火車站、地鐵站或者鐵路軌道附近。

由此可見，LongCat-Next 可以綜合多個聲學線索完成場景級語義推斷。

它還能敏銳感知到話里話外的情緒。比如一段男聲音頻中，LongCat-Next 不僅聽懂了字面內容，還從提高的音量與急促的語速中，判斷出說話者情緒激動、帶有明顯怒意。

除了「聽懂」音頻，LongCat-Next 還具備語音合成與聲音克隆能力

提供一段帶有濃重廣味的普通話作為參考音頻，讓它在保留說話人音色特征的同時，合成全新的目標內容。

合成音頻還原了說話人的嗓音質感，那股辨識度極高的粵腔普通話韻味也被完整保留。

切換到英文場景，同樣給出參考音頻，要求模型克隆音色并復述指定內容。

LongCat-Next 準確捕捉到說話者的音色特征與口音習慣，輸出的合成語音在聽感上與原聲高度貼近，目標內容的表達也清晰準確。

當「萬物」都變成 Token

模型開始真正統一世界

今天的大模型，在核心建模范式上，仍以「預測下一個 token」為基礎。但問題在于，這個 token，長期只屬于語言。LongCat-Next 將這一理念延伸至多模態領域，提出了離散原生自回歸（DiNA）框架

在該框架下，圖像和音頻等連續信號被轉化為與文本共享表示空間的離散 token。在統一 token 表示下，大幅減少了為不同模態設計專用架構的需求。視覺理解與生成、音頻處理等任務，在核心建模上被統一為自回歸預測過程。

通過成對的 tokenizer，將多模態能力擴展到一種類似語言建模的原生框架之中。

如何把高維視聽信號無損變成 Token 并還原？

首先的問題是，圖像真的能變成 token 嗎？

語言天然是離散的，但視覺不是。一張圖像，是高維、連續、信息密度極高的信號，一旦壓縮成有限 token，很容易發生語義丟失（看不懂）、細節丟失（畫不出來）。

LongCat-Next 把這個問題抽象成一個核心原則：語義完備性。也就是說，token 化之后，模型基于 token 做出的判斷，應盡可能接近直接基于原始圖像的判斷。

為了將高維的視覺信號轉化為離散 token 且盡量減少信息損失，LongCat-Next 設計了名為dNaViT（Discrete Native Resolution Vision Transformer）的視覺 Tokenizer 。

該 Tokenizer 的核心包含三個關鍵部分：

SAE（語義對齊編碼器）：模型采用經過大規模圖文對齊訓練的視覺編碼器作為預量化特征的基礎。這類編碼器不僅能夠捕獲高層語義概念，同時也保留了細粒度的視覺屬性，為后續離散建模提供語義基礎。

RVQ 壓縮（殘差向量量化）：為了將連續特征映射到有限的離散代碼本中，模型引入多層級聯的 RVQ 機制。它通過逐層量化殘差誤差的方式不斷逼近原始表示，從而在壓縮率與信息保真之間取得更好的平衡。

dNaViT 原生分辨率：傳統視覺模型通常依賴固定分辨率輸入，這在縮放或裁剪過程中不可避免地帶來信息損失。dNaViT 則直接在原生分辨率下處理任意長寬比圖像，將視覺信號轉化為變長 token 序列，從而最大程度保留細節信息。

在將圖像轉換為 token 的過程中，研究人員觀察到一個內在的信息保留現象：即使視覺編碼器沒有接受像素級重建訓練，只要其結構中包含殘差連接，就會自然保留一條低層信號傳播路徑。

換句話說，殘差，就是保住珍貴像素細節的「保鮮通道」

在這種結構下，淺層的像素級與結構細節可以通過恒等映射直接傳遞到深層，不會被高層語義完全覆蓋。這也意味著，在離散化之前，模型內部已經隱式保留了部分用于圖像重建的底層信息。

基于不同凍結視覺編碼器的視覺重建，使用輕量級像素解碼器訓練。結果表明，殘差連接固有地保留了用于低級信號傳播的潛在路徑。

那么，在生成階段，模型如何將離散 token 重新還原為圖像？

首先，這些離散代碼嵌入會被送入一個基于視覺 Transformer（ViT）的像素解碼器中，用于恢復圖像的空間布局與對象結構等基礎內容。隨后，模型引入一個基于流匹配訓練的圖像細化器，在結構結果之上進一步補充紋理與高頻細節，最終生成高質量圖像。

可以理解為：第一階段負責「還原結構」，第二階段負責「提升觀感」。

dNaViT 的 tokenizer 與 de-tokenizer 訓練流程：通過殘差向量量化（RVQ）將圖像編碼為離散 token，并通過像素解碼器在任意分辨率下將其解碼回圖像空間。

聲音同樣被納入統一的離散建模體系中。模型首先利用Whisper 編碼器提取音頻的語義與副語言特征（如語氣、情感等），隨后通過下采樣與 RVQ 壓縮為離散音頻 token。

在解碼端，模型先恢復粗略的梅爾頻譜，再通過基于流匹配的模型進行細化，從而顯著提升語音合成的聲學保真度與音質表現。

通過上述設計，LongCat-Next 最終證實了一個重要的觀點：信息的豐富度并不必然依賴于連續的空間

團隊在后續的評測中，用一系列的理解任務指標直接證明了這一點：即使是一張包含密集圖表、海量文字的極其復雜的圖像（例如在 OmniDocBench 等重度文檔問答任務中），在被強行壓縮成有限的離散 token 后，依然能夠精準回答關于該圖像的所有 QA、Caption 以及邏輯推理任務。

這意味著，在跨越模態的轉換中，圖像的核心信息并沒有消亡。這堆看似有限且抽象的離散 ID，實質上已經成為了高維、連續視覺信號的一種極度緊湊且語義完備的等價表示。它們不僅成功鎖住了視覺世界的骨相與細節，更變成了語言模型能夠毫無障礙、直接閱讀的「通用母語」。

LongCat-Next 在復雜視覺理解任務中的表現。即使面對排版密集的報紙、復雜的幾何圖表與邏輯推理題，轉化為離散 token 后的模型依然能夠精準提取信息并進行深度邏輯推理，證明了該離散表示的語義完備性。

另外，對比近期的一些架構演進，「殘差機制」在不同場景下呈現出截然不同的作用。

在 LongCat 的視覺編碼階段，殘差更像是一條「保留通道」。由于網絡相對較淺，且目標是盡可能無損地保留原始像素信息，殘差的恒等映射特性能夠有效防止底層細節被高層語義覆蓋。

而在 Kimi 團隊最近大火的 Attention Residuals 工作中，當語言模型深度達到上百層時，傳統殘差累加反而會演變為「信息稀釋」。早期層信息在傳播中逐漸衰減，同時隱狀態不斷擴張，帶來穩定性問題。因此，該工作引入注意力機制對殘差信息進行選擇性傳遞。

LLM 的「大腦」如何處理信息？

在 DiNA 框架下，所有輸入（無論是文本、圖像還是語音）在進入模型之前，都會被轉換為統一格式的離散 token。隨后，它們被送入同一個解碼器架構中，由一個模態無關的混合專家網絡（Modality-Agnostic MoE）統一處理

這意味著，傳統多模態模型中視覺分支、語音分支、跨模態對齊模塊等常見的結構，在這里被徹底取消。主干路徑被統一為：token → 共享嵌入 → 自回歸建模，但在輸入與輸出端仍保留模態相關組件。

換句話說，大模型的「多模態能力」，不再來自結構拼接，而是來自表示統一

理解與生成并不沖突

傳統的觀點認為，理解和生成是兩個相互競爭的目標。但在 LongCat-Next 中，它們被統一為同一自回歸預測過程中的兩種表現形式。實驗證明，將視覺理解與生成置于統一的自回歸目標下進行聯合訓練，兩者并未產生容量沖突

在同等 token 數量的訓練下，統一模型（Unified model）的損失與純理解模型（Pure-Und.）的差距微乎其微（僅相差 0.006），同時其損失甚至比純生成模型（Pure-Gen.）還要低 0.02 。

這意味著，生成任務不會削弱理解能力，反而理解任務的引入會進一步提升生成表現。

為了保證生成語音的邏輯連貫性，模型借鑒了內部文本引導的思想，將文本作為語音生成過程的一部分進行顯式建模。

串行生成：模型先生成引導性的文本片段，再生成對應音頻片段。這一方式在每一步只需預測單一模態 token，有效避免模態間干擾，從而保證語義準確性。

并行生成：模型在每一步同時生成文本與音頻 token，并通過延遲首個音頻 token 的生成步數，實現與文本的對齊。該策略顯著降低響應延遲，更適用于實時對話場景。

為了統一這兩種策略，團隊提出了一種基于隨機延遲的訓練范式：在訓練過程中隨機采樣文本與音頻的對齊延遲，使模型學習更魯棒的跨模態對齊能力。

實驗顯示，在該訓練方式下，并行生成在效率與語義準確度上均可達到與串行生成相當的水平。

兩種具有內部語言引導的語音生成策略。用戶的輸入音頻被視為純音頻模態，而由 LongCat-Next（或助手）生成的輸出則被視為文本引導的音頻模態。為了指示模態轉換并促進分段對齊，團隊引入了三個特殊標記：AS（Audio Start，音頻開始）、AE（Audio End，音頻結束）和 TE（Text End，文本結束），分別表示音頻片段的起始和結束，以及文本片段的結束。

基礎設施保障：V-Half 流水線調度

在多模態模型中，計算負載本質上是異構的。圖、音、文在 Embedding 層和特定模態損失模塊（如深度 Transformer）的計算耗時存在顯著差異，且會隨每條樣本中模態 token 分布的不同而動態波動。傳統的線性流水線并行會導致嚴重的級間負載不均、高昂的點對點通信開銷以及大量的算力氣泡。

為解決這一系統瓶頸，團隊采用了基于V-Half的流水線調度策略。該策略通過「V 型調度」，將計算流水線的第一個階段（Embedding 層）和最后一個階段（模態特定的損失模塊）「折疊」并共置于同一個物理設備上。

這種物理層面的共置設計，不僅通過吸收動態計算開銷有效消除了流水線氣泡、實現了近乎完美的負載均衡，還使得這兩端模塊之間的前向激活和反向梯度傳遞可以通過零拷貝的設備內內存訪問完成，顯著減少了跨階段通信開銷。

實驗細節與未來工作

在視覺生成數據上，為避免模型陷入同質化審美（即過度偏向高頻的「AI 風格」），團隊引入了基于聚類的重平衡策略。通過對高密度集群進行去重，并提高稀疏長尾概念（如罕見動植物、專業儀器）的采樣權重，從數據源頭上保障了生成內容的多樣性。

左圖：數據整理與訓練流程包含三個階段：（I）預訓練：通過過濾和重新描述實現基本對齊；（II）中期訓練：通過語義聚類和重平衡解決數據不平衡問題；（III）監督微調：基于高質量、遵循指令的數據，提升美學質量和文本渲染效果。右圖：圖像來源的分布情況。

將多模態數據離散化為 token 的另一項技術紅利，體現在強化學習階段。離散視覺潛在空間天然可以作為動作空間，使模型能夠直接套用語言模型成熟的 RL 算法（如 GRPO）來提升畫圖和理解能力，避免了連續空間中復雜的采樣與映射過程。

在針對圖像理解進行 RL 訓練時，團隊遭遇了嚴重的「熵爆炸」問題。當極少數 token 存在訓練 - 推理概率失配時，微小的亂碼噪聲會在長序列生成中累積放大，導致輸出崩潰。團隊最終通過設計基于熵和概率差的「序列級過濾機制」，在梯度更新前精準丟棄包含致命錯亂的樣本序列，成功穩定了 RL 的訓練過程。

整體來看，LongCat-Next 的后續工作，仍將圍繞兩個核心問題展開：一是如何在更高壓縮率下維持跨模態語義完備性；二是如何在統一 token 空間中進一步提升長序列與復雜任務下的穩定性與可控性。

結語

論文在最后探討了一個非常有趣的觀點：「柏拉圖表征假說」。在柏拉圖的哲學理念中，現實世界的萬事萬物，都只是完美「理念」的影子。映射到深度學習中，文本、圖像和聲音，本質上也是對同一個客觀現實的不同表達途徑。

在傳統的拼接式模型中，圖、音、文往往各自為陣，在特征空間里形成割裂。但當它們被置于 DiNA 這種完全原生的離散框架下時，實驗觀測到了一個美妙的現象：視覺和文本 token 的特征分布自然地交織在了一起。

它們不再是需要被強行對齊的異類，而是變成了表達同一個底層概念的「世界語言」。無論是屏幕上的像素，還是麥克風里的聲波，最終都在模型的高維語義空間中，化為了同一種思維的漣漪。

客觀地看，目前的探索仍是一個起點。正如團隊在未來工作中所指出的，當前的評估主要通過圖像到文本（理解）和文本到圖像（生成）等經典任務，成功驗證了這種離散原生架構的可行性與語義完整性。然而，距離真正意義上的通用多模態智能仍有距離。

團隊指出，未來的原生多模態系統絕對不應局限于這些傳統的單一方向。理所當然的下一步，是必須走向更復雜的「任意到任意」的交織推理。這意味著未來的輸入和輸出將是文本、視覺和音頻的任意組合，甚至涵蓋長上下文的多模態交互、多輪視覺對話，以及不同模態之間動態相互制約的組合生成。只有實現這種靈活、統一的交互，模型才能真正從「特定任務的專家」進化為「通用多模態智能」。

文中視頻鏈接：https://mp.weixin.qq.com/s/IzzNLPI9L2tSRvOXniOJ2Q

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.