2026年3月24日,國家數據局首次在官方語境中確立“詞元”為Token的標準譯名,并披露國內日均Token調用量已突破140萬億。但這仍只是“文本時代主導”的規模。
在語音、視頻與實時交互驅動的多模態場景中,隨著自主調用工具并交付結果的Agent大量部署,Token的生成與消耗方式正在發生范式性變化——
從離散文本走向連續感知,從低頻批量輸入走向高頻流式輸入,其生產方式、組織結構與消耗效率,將直接決定下一代AI系統的能力上限與成本結構。
![]()
早在2021年,復旦大學邱錫鵬教授較早明確采用“詞元”這一譯法,推動其在中文語境下的標準化。他指出,“詞元”既避免被簡單理解為自然語言中的“詞”,又保留了其作為語言處理基本單位的本質內涵。
而隨著大模型從文本走向多模態、從模型能力走向Agent系統,“詞元”所對應的,也不再只是一個術語問題,而是下一代智能系統的底層組織方式。
在這一趨勢下,圍繞統一Token結構、全模態與情境智能展開布局的公司,正持續獲得資本關注。
近日,模思智能(MOSI)也官宣完成數億元的天使輪融資,由IDG資本領投,元禾控股、上海國投旗下上海科創及上海未來產業基金、奇績創壇、智譜系基金-星連資本及某頭部產業投資方聯合投資。
這筆融資背后,投資方顯然看重的并不只是單點產品能力,而是其對下一代技術路徑的提前布局,而多維資本也將擔任新一輪獨家財務顧問,攜手模思智能共同探索通用智能時代的下一步。
非共識路徑:從語音到全模態,在統一的Token結構中被表達和計算
早在2023年“百模大戰”期間,邱錫鵬便意識到,市場上雖然模型眾多,但底層技術路徑高度趨同。絕大多數資源持續涌向文本大模型賽道,基礎研究的多樣性卻在萎縮。
某種程度上,這種同質化不僅限制了技術可能性的展開,也壓縮了探索新路徑的空間。
在這樣的背景下,模思智能并未沿著主流的純文本路線繼續加碼,而是選擇了一條更少人走的道路:從語音切入,走向全模態,在統一的Token結構中表達和計算不同模態的信息。
![]()
之所以選擇語音作為突破口,原因并不復雜。
相比純文本,音頻的信息密度更高,天然包含語調、節奏、情緒等文本難以完整承載的信號;同時,音頻也更容易與環境、動作和上下文形成連續輸入流,更接近真實世界中的人機交互方式。
它不僅是交互入口,更是通向“情境理解”的天然起點。
當Token不再只是文本中的離散符號,而成為連續感知信息的離散化表達后,模型要解決的問題也發生了變化:從“理解一句話”轉向“理解一個情境”。
模思智能將這一能力概括為“情境智能”(Contextual Intelligence)——以持續感知、動態記憶與環境理解為基礎,使AI能夠在真實世界中進行自適應交互。
在這一框架下,Token不再只是靜態輸入單元,而是構成情境的基本信號。
而Agent,正是情境智能走向現實應用的直接載體。
隨著以OpenClaw等為代表的基礎設施逐步成熟,行業競爭也正在從單一的“模型能力”比拼,轉向對交互入口與環境理解能力的爭奪。語音、上下文與情境建模能力,正在成為新的技術分水嶺。
如果說邱錫鵬代表的是這一路線的學術源頭,那么模思智能則是這一方向的產業化載體;而上海創智學院提供的,則是支撐技術快速轉化的組織與資源平臺。
MOSS之后,真正的布局才剛剛開始
模思智能核心團隊長期深耕預訓練、大模型與多模態方向,并持續推進統一Token路線的技術演進。
2023年2月,國內首個類ChatGPT對話式大模型MOSS發布,打響了中國“百模大戰”的第一槍。但在模思智能團隊看來,真正重要的并不是打一場模型發布戰,而是提前押注下一階段的技術結構。
同年5月,團隊推出SpeechGPT,在業內較早驗證了“離散化端到端語音大模型”這一路徑的可行性。
它所解決的核心問題,是首次將連續語音信號拆解并映射為離散Token序列,讓語音得以真正進入與文本統一的Token空間。
這意味著,機器理解人“說的話”和理解人“寫的話”,第一次有機會在同一套計算框架內完成。
![]()
同年8月發布的SpeechTokenizer,則進一步將這一路線工程化,成為融合語義Token與聲學Token的音頻離散化編碼器,為后續語音理解與生成、乃至更廣義的多模態統一建模打下了底座。
這條路線一旦走通,向全模態擴展就是自然而然的結果。
2024年2月,AnyGPT發布,首次將語音、文本、圖像與視頻統一映射至離散Token體系,提出了真正意義上的離散化全模態基座模型架構。
不同模態不再需要彼此割裂、分別訓練,而是能夠在同一序列結構中完成理解與生成。
至此,團隊此前多年的技術布局,第一次呈現出較為完整的輪廓。
從單點突破到能力閉環
此后,相關成果開始加速涌現。
2025年7月,MOSS-TTSD發布,作為國內首個基于百萬小時音頻訓練的開源中英雙語對話語音模型,在播客、影視配音等長內容場景中展現出較強競爭力。
![]()
視頻地址:https://mp.weixin.qq.com/s/tXkD_9BWv7aHk_uflfb9-g
同年11月,聯合上海創智學院等機構發布的下一代能動性模型體系NEX,在氛圍編程、工具使用、后端開發等多項基準測試中進入全球第一梯隊水平,將離散化架構的優勢進一步延伸至Agent與生產力場景。
進入2026年后,團隊以月度推進的節奏持續迭代:
- MOSS-Transcribe-Diarize在復雜多說話人場景中實現領先表現;
- MOVA作為國內首個高性能音視頻生成開源模型之一,開源后迅速獲得行業關注;
- MOSS-Audio-Tokenizer在相同比特率下進一步刷新音頻重建性能;
- 基于該Tokenizer訓練的MOSS-TTS系列模型,則主要面向實際生產場景,在音色克隆相似度等指標上表現突出。
至此,模思智能已經成為國內少數完成“全模態基座模型能力閉環”的初創公司之一。
![]()
視頻地址:https://mp.weixin.qq.com/s/tXkD_9BWv7aHk_uflfb9-g
這一系列成果背后,并不是若干彼此孤立的技術突破,而是同一個底層命題被不斷驗證后的自然延展:多模態信息可以通過統一的離散化方式映射到同一Token序列結構中,進而實現統一計算。
離散化帶來的,不只是更高的壓縮效率,更重要的是賦予不同模態以可組合性與可計算性——而這正是全模態智能與Agent系統真正落地的底層架構前提。
頂尖大模型產業化團隊:具備從0到N的全棧能力
支撐模思智能技術路徑的,是一支同時具備前沿研究深度與工程落地能力的核心團隊。
首席科學家邱錫鵬,復旦大學教授,國家杰出青年科學基金獲得者、上海創智學院全職導師,并榮獲2024年CCF-ACM AI Award(當年全球唯一獲獎人)。
他長期深耕自然語言處理與大模型方向,在端到端語音大模型與全模態基座模型等前沿領域持續保持技術領先,是國內大模型領域兼具學術高度與產業影響力的領軍人物,多次入選全球前2%頂尖科學家榜單。
其著作《神經網絡與深度學習》被廣泛用于高校教學。
![]()
CEO李世民出自邱錫鵬門下碩博連讀體系,以一作身份發表多篇CCF-A類論文,并深度參與科技部“新一代人工智能2030”重點研發項目,在擬人化人機交互方向實現多項關鍵技術突破。
對李世民而言,創業并非角色轉換,而是其既有研究路徑在產業側的自然延伸。
值得注意的是,模思智能并非傳統意義上的“教授帶學生創業”,而是由上海創智學院與復旦大學聯合孵化的標桿項目。
作為上海市主導設立的新型研發機構,創智學院為公司提供了覆蓋算力、人才與產業資源的體系化支持,使其具備遠高于常規學術創業項目的起點與迭代速度。
2025年7月,在創智學院“首發八大AI成果”發布會上,邱錫鵬團隊聯合模思智能發布的MOSS-Audio被評價為“突破語音交互恐怖谷效應,為情境智能奠定基礎”。
△圖源:上海創智學院官微
同年9月,在一周年成果發布會上,團隊提出的規模化全流程大模型可解釋框架再次入選七大創新成果,標志著中國在相關方向實現從跟跑到領跑的躍遷。CEO李世民表示:
- 創智學院的孵化,使我們能夠以遠超傳統學術創業的速度完成技術轉化。
公司目前已形成近百人的全棧技術體系,博士占比接近50%,核心成員主要來自復旦大學NLP體系(CS Ranking全球前列),并持續吸引來自多所頂尖高校的研究人才。
隨著公司逐步走向產業化落地,團隊引入多位具備阿里、字節、理想汽車等背景的關鍵成員,補齊工程化與商業化能力,為從1到N的規模化擴張奠定基礎。
商業化層面,模思智能多模態大模型開放平臺已進入全面公測階段,提供一站式API服務,以高穩定性與高性價比支撐企業級調用需求。
目前,公司已在消費電子、智能汽車、具身智能與AI陪伴等多個場景中與頭部客戶展開合作,初步驗證了技術落地能力與商業轉化潛力。
模思智能更強調從基座模型到垂直應用的一體化能力構建,其商業增長飛輪將圍繞“詞元(Token)的生產、分發與應用”展開,從MaaS能力輸出延伸至2B、2B2C與2C多層級場景,逐步形成技術與商業雙輪驅動的公司。
誰在定義下一代智能
國家數據局首次官宣“詞元”譯名,在某種程度上標志著大模型產業正從早期野蠻生長走向更高程度的規范化。
這背后意味著,單純依賴參數堆疊與算力外推的階段正在逐步過去,未來模型能力的差距,可能越來越取決于架構創新、系統組織方式以及頂尖人才密度。
模思智能試圖回答的,正是一個尚無定論的問題:當大模型進入深水區,真正的護城河究竟是什么?
答案或許已不再只是參數規模或算力投入本身,而在于是否能夠更早識別并押注下一代智能的核心結構。
對模思智能而言,這種結構體現為:統一的Token表達、面向情境的持續理解能力,以及能夠調用工具、交付結果、與用戶建立長期關系的Agent系統。
當“詞元”進入官方語言,真正值得關注的,或許已不只是一個術語被定名,而是誰能夠率先定義:詞元將如何被生產、組織與使用。
某種意義上,這也正是在定義下一代智能系統的邊界。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.