網易首頁 > 網易號 > 正文申請入駐

美團發布原生多模態 LongCat-Next：把物理世界變成 AI “文字”

2026-03-27 12:14:35　來源: 讀懂數字財經

北京舉報

分享至

物理世界的信息由圖像、聲音、文字交織而成，但通往真正物理世界智能的邊界，絕不僅僅是語言。近日，美團發布并全面開源原生多模態大模型 LongCat-Next 及其核心組件——離散原生分辨率視覺分詞器（dNaViT）。

▲美團發布原生多模態LongCat-Next：讓視覺和語音成為AI“母語”（資料圖）

該模型打破了當前大模型以“語言為中心”的傳統拼湊式架構，將圖像、語音與文本統一映射為同源的離散 Token。通過純粹的“下一個 Token 預測”（Next Token Prediction，NTP）范式，LongCat-Next 讓視覺與語音成為 AI 的“原生母語”。這不僅是一次底層架構的革新，更是美團 LongCat 團隊在通往物理世界 AI 道路上邁出的堅實一步。

打破模態壁壘：賦予 AI 物理世界的“統一母語”

今天的主流多模態大模型，本質上仍是"語言基座 + 外掛視覺/語音模塊"的拼湊系統。非語言模態往往只作為輔助組件被"投影"到語言空間，導致圖像的理解（依賴對齊機制）與生成（依賴擴散模型）在結構與優化上長期割裂。

能否讓 AI 像處理語言一樣，用同一種方式簡潔有效地處理物理世界的多種信息？

▲LongCat-Next 架構概覽，該架構基于DiNA范式設計（資料圖）

美團 LongCat 團隊給出了肯定的答案。通過構建 DiNA（Discrete Native Autoregressive）離散原生自回歸架構，LongCat-Next 將所有模態統一為離散 Token，并共享同一個自回歸骨干。無論輸入的是文字、圖像還是音頻，模型都使用同一套參數、同一個注意力機制和同一個損失函數。

在這一極簡架構下，視覺的“看”與“畫”、聽覺的“聽”與“說”，不再是異構模塊的拼接，而是同一套預測邏輯的自然涌現。給定圖像預測文字是“理解”，給定文字預測圖像是“生成”——兩者在數學形式上完全一致，不再割裂，多模態信息真正實現了更深層的模態“內化”。

三大核心技術，重塑多模態底層邏輯

為了讓物理世界的信號真正轉化為 AI 的“母語”，LongCat-Next 實現了三項關鍵技術突破：

第一，離散原生自回歸架構（DiNA）徹底打破模態隔閡。

以 LongCat-Flash-Lite MoE（總參數 68.5B，激活參數僅 3B）為基座，DiNA 讓所有模態共享同一個自回歸骨干，訓練時更穩定，部署時更輕量。實驗表明，DiNA 的 MoE 路由在訓練中逐漸出現模態專精化——激活專家數量相比純語言設置有所增加，模型正在用更大容量支撐能力擴展。與此同時，不同模態的 Token 表征在表示空間中自然融合（t-SNE 可視化可見），MoE 專家自發形成模態偏好分化。這表明模型并非在“對齊模態”，而是在內部形成了統一的多模態表征結構——從“對齊”走向了真正的“內化”。

第二，離散原生分辨率視覺分詞器（dNaViT）構造視覺世界的“詞典”。

dNaViT 相當于視覺領域的“分詞器”，將圖像拆解為一系列有意義的“視覺詞匯”，成功實現了“image → Token → image”的完整閉環——既用于“看懂”圖像，也用于“畫出”圖像。這其中包括了三項關鍵設計。

原生任意分辨率支持：不做縮放、裁剪與填充，完整保留畫面每一處細節，dNaViT 實現了任意分辨率的圖像編碼與解碼——在文檔解析（OCR）、復雜圖表推理等對細節敏感的任務中具備優勢，并在 OmniDocBench、OCRBench 等密集文本場景的測試中均表現優異；

8 層殘差向量量化（RVQ）：通過8層級聯遞歸擬合“殘差中的殘差”，實現高達 28 倍的極致像素空間壓縮；解碼時，DepthTransformer 將多級 Token 合并重建，讓壓縮與還原高效協同；

解耦雙軌生成解碼器：離散 Token 還原圖像時，先由“結構像素解碼器”還原布局，再由“擴散像素細化器”注入紋理細節，解耦設計降低生成方差，確保文本渲染清晰無損。

值得強調的是，在 LongCat-Next 中，視覺 Token 完成的僅是圖像到離散 ID 的映射，真正的視覺表征是在語言模型內部通過 embedding 原生學習得到的。模型不是"接入視覺能力"，而是在內部學習并形成了自己的視覺語言——這種從“借用模態”到“內生模態”的轉變，正是原生多模態建模的核心所在。

第三，語義對齊完備編碼器破解“離散化必然損失信息”的行業難題。

團隊引入 SAE（Semantic-and-Aligned Encoder）范式。不同于以對比學習為主的模型（如 SigLIP），SAE 通過大規模視覺-語言監督（涵蓋圖像描述、視覺問答乃至視覺推理等任務），學習高信息密度、多屬性的表征。這類表征不僅具備豐富的語義結構，同時在網絡殘差傳遞機制下，底層視覺細節能夠持續向高層傳播，在抽象語義中保留顏色、紋理與空間結構等細粒度信息，為離散 Token 的語義完備性提供基礎。在此之上，多級殘差向量量化（Residual Vector Quantization, RVQ）機制，對表征進行逐級離散建模，在有限離散空間內逼近高維連續表示，從而在壓縮率與信息保真之間取得平衡。

最終得到的離散視覺 Token，不僅能夠支撐細粒度理解任務（例如在密集文本識別中優于連續表征模型），同時也具備高保真的圖像重建能力。這表明：離散表示并非信息的退化形式，而可以成為統一理解與生成的完備表達載體。

實證破局：打破三大行業刻板印象

LongCat-Next 在視覺理解、圖像生成、音頻、智能體等多個維度的基準測試中，以一套離散原生框架，展現出與多模態專用模型相當甚至領先的性能，驗證了三個關鍵發現。

▲LongCat-Next 的基準測試性能（資料圖）

發現一：離散視覺沒有天花板。

行業曾普遍認為，離散模型在細粒度文本識別上必然不如連續模型。但 LongCat-Next 在 OmniDocBench（學術論文、財報、行政表格）上取得 0.152 / 0.226 的成績，不僅超越 Qwen3-Omni，還超過了專用視覺模型 Qwen3-VL。離散化不是細粒度感知的天花板，關鍵在于如何構建語義完備的離散視覺表征。

發現二：理解與生成可以協同。

傳統觀點認為，單一模型難以兼顧理解與生成。但 LongCat-Next 證明了兩者不僅不沖突，反而表現出協同潛力：統一模型的理解損失僅比純理解模型高 0.006，而生成損失比純生成模型低 0.02。在圖像生成上，GenEval（84.44）、LongText-Bench （英文 93.15）等基準測試結果均顯著超越 BAGEL 等統一模型；在圖像理解上，MathVista（83.1）達到行業領先水平。

發現三：統一框架不折損語言能力，在智能體與音頻上形成跨模態協同。

在純文本任務上，LongCat-Next 的 MMLU-Pro（77.02）和 C-Eval（86.80）表現領先，證明原生多模態訓練未削弱語言核心能力。在工具調用上，τ2-Bench 零售場景（73.68）大幅領先
Qwen3-Next-80B-A3B-Instruct（57.3）；在代碼能力上，SWE-Bench（43.0）顯著超越同類模型。

在音頻領域，TTS 任務 SeedTTS 中文 WER 低至 1.90、英文 WER 低至 1.89；音頻理解 MMAU（76.40）、TUT2017（43.09）均達到先進水平。模型同時支持低延遲并行文本語音生成與可定制語音克隆，讓語音交互更自然、更個性化。

全面開源，共建物理世界 AI 基石

“作為一個初步的嘗試，我們展示了一個有意義的視角：物理世界的信息可以被離散化、統一化、像語言一樣被建模，讓 AI 第一次能夠像處理文字一樣原生地理解物理世界的多模態信號。”美團 LongCat 團隊相關負責人表示，“我們期待，有一天 AI 能真正‘看懂’物理世界的每一個角落、‘聽懂’顧客的每一句話、理解物理世界的每一條規律。”

在他看來，LongCat-Next 以小尺寸驗證了原生離散架構的潛力，是通往物理世界 AI 道路上的一塊重要基石，但未來仍有非常多且重要的方向尚未被充分探索——這恰恰是未來研究的機遇所在。

目前，LongCat-Next 模型、dNaViT 分詞器及相關技術報告全面開源，開發者可通過以下鏈接獲取資源：

Paper: https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
GitHub: https://github.com/meituan-longcat/LongCat-Next
HuggingFace: https://huggingface.co/meituan-longcat/LongCat-Next

更多體驗前往：

Demo: https://longcat.chat/longcat-next
Blog: https://longcat.chat/longcat-next/intro

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.