【億邦原創(chuàng)】2025年3月24日,北京,國務(wù)院新聞辦公室發(fā)布會現(xiàn)場。國家數(shù)據(jù)局局長劉烈宏在介紹我國數(shù)據(jù)產(chǎn)業(yè)發(fā)展情況時,公布了一組極具沖擊力的數(shù)據(jù):截至今年3月,我國日均詞元(Token)調(diào)用量已超過140萬億。相比2024年初的1000億,增長了1000多倍;相比2025年底的100萬億,短短三個月又增長了40%以上。
在中國加速智能化、綠色化和融合化發(fā)展的新征程中,這組數(shù)據(jù)本身已是重磅新聞。但比數(shù)字更引人注目的,是出現(xiàn)在劉烈宏局長發(fā)言中的一個細(xì)節(jié)——他將“Token”的中文譯名,首次在國家級新聞發(fā)布會的權(quán)威場合,正式確定為“詞元”。
在此之前,這個在數(shù)智化暨大模型時代高頻出現(xiàn)的詞匯,長期處于“不清晰”或“不準(zhǔn)確”的狀態(tài)。各執(zhí)一詞,莫衷一是。而今天,由國家數(shù)據(jù)局局長在國務(wù)院新聞辦宣讀出來,不僅意味著一個技術(shù)術(shù)語的譯名塵埃落定,更標(biāo)志著對這一數(shù)字時代關(guān)鍵新事物的本質(zhì)認(rèn)知,終于有了定論。
一個外來詞的“正名”歷程
在中國文化傳統(tǒng)中,“名”的分量從未被輕看。孔子言“名不正則言不順”,荀子強調(diào)“制名以指實”。名與實的關(guān)系,從來不只是語言學(xué)問題,而是關(guān)乎認(rèn)知、秩序與規(guī)律的哲學(xué)命題。這使得在人工智能時代,漢字似乎更擁有了特殊的競爭力。“Token”的譯名之爭,恰恰反映了這一事物在高速演進(jìn)中,人們對它本質(zhì)把握的漸進(jìn)過程。
“Token”一詞初源于通信與計算機科學(xué)。在人工智能領(lǐng)域,最初也是指在自然語言處理中,對文本切分的最小單元,英文中基本就是一個個的單詞,而中文則可以是具有“意義”的一個字或一個詞。隨著大語言模型的崛起,Token的含義進(jìn)一步擴展——它不僅是文本的基本單位,更是大語言模型運行的基本尺度,是算力消耗的度量標(biāo)準(zhǔn),是數(shù)據(jù)要素的底層單元,是商業(yè)模式的計費基礎(chǔ),是價值流轉(zhuǎn)的數(shù)字載體。如此復(fù)雜的內(nèi)涵,使得尋找一個貼切的中文譯名變得格外困難。
此前,“令牌”之說最為流行,這一譯法取自Token在通信科學(xué)領(lǐng)域的含義,強調(diào)其“通行證”屬性,但難以涵蓋其在語義層面的本質(zhì)。在一些場景中,直接以“分詞”命名。而“標(biāo)記”則顯得有些過于泛化,失之精準(zhǔn)。“代幣”則將Token框定在加密貨幣的語境中,對于大模型時代的Token而言,顯然是只見樹木不見森林。
而“詞元”一詞的確定,堪稱信達(dá)雅。“詞”字,指向Token在自然語言處理中的基礎(chǔ)功能——承載語義信息的最小單元。“元”字,則有“始也”“本也”“基也”之意,在中國哲學(xué)中具有根本性、本源性的內(nèi)涵。二字合一,“詞元”既準(zhǔn)確描述了這一概念在技術(shù)層面的具體所指,又暗合了其作為數(shù)字經(jīng)濟新時代基礎(chǔ)要素的底層地位。“詞元”之定,不是簡單的翻譯選擇,而是對這一事物本質(zhì)的深刻把握。
定名的基礎(chǔ)是數(shù)量級的增長
劉烈宏局長在發(fā)布會上公布的相關(guān)發(fā)展態(tài)勢數(shù)據(jù),也為“詞元”這一概念的定名提供了有力的注腳。“詞元”日均調(diào)用量超過140萬億——這是一個怎樣的概念?如果以中國14億人口計算,意味著平均每人每天要調(diào)用10萬個詞元。當(dāng)然,調(diào)用者并非僅為普通個體,還包括遍布全國的大模型應(yīng)用、智能體服務(wù)、數(shù)據(jù)處理平臺。但即便如此,這一數(shù)字所揭示的,是詞元已從實驗室的概念、技術(shù)文檔的術(shù)語,徹底演變?yōu)榻?jīng)濟行為的重要計量單元。
從2024年初的日均1000億,到2025年底的日均100萬億,直到2026年3月的日均超過140萬億。短短兩年多時間,數(shù)量級的跨越式增長,折射出我國人工智能產(chǎn)業(yè)從“技術(shù)突破期”邁入“規(guī)模化應(yīng)用期”的轉(zhuǎn)型,而作為人工智能產(chǎn)業(yè)發(fā)展基礎(chǔ)的數(shù)據(jù)要素,則從“基礎(chǔ)設(shè)施建設(shè)”邁入“價值釋放”的階段。
這一大跨步發(fā)展的核心,正是詞元作為基礎(chǔ)單元的全面滲透。正如一位專家所言,在模型訓(xùn)練階段,詞元是語料標(biāo)注的基本顆粒度;在模型推理階段,詞元是計算資源的分配單位;在商業(yè)應(yīng)用層面,詞元是服務(wù)定價的計費依據(jù);在產(chǎn)業(yè)生態(tài)中,詞元流轉(zhuǎn)構(gòu)成了數(shù)據(jù)要素市場化的微觀基礎(chǔ)。可以說,理解今日之人工智能產(chǎn)業(yè),離不開“詞元”這個基本視角。
正因如此,為“Token”確定一個準(zhǔn)確、恰當(dāng)?shù)闹形拿Q,不僅是語言規(guī)范的需要,更是產(chǎn)業(yè)發(fā)展到一定階段后,對基礎(chǔ)概念進(jìn)行理論定型的必然要求。從這個意義上說,“詞元”之定,是對規(guī)律的認(rèn)識和尊重。即當(dāng)一種技術(shù)要素發(fā)展到足以成為產(chǎn)業(yè)基礎(chǔ)、經(jīng)濟單元、社會設(shè)施的時候,為其正名,就是對規(guī)律的確認(rèn)。
定名背后的中國話語權(quán)構(gòu)建
在科技產(chǎn)業(yè)領(lǐng)域,長期以來,大量專業(yè)術(shù)語直接使用英文縮寫或外文原詞,中文譯名遲遲難以確立,這背后既有技術(shù)追趕階段“拿來主義”的現(xiàn)實考量,也有話語體系建設(shè)滯后的深層原因。“詞元”的定名,提供了一個值得深思的樣本。它不是簡單的音譯,也不是機械的直譯,而是在深刻理解技術(shù)內(nèi)涵、準(zhǔn)確把握發(fā)展趨勢基礎(chǔ)上的意譯與創(chuàng)造。“詞”與“元”的組合,既有中國古典哲學(xué)的韻味,又精準(zhǔn)對應(yīng)現(xiàn)代信息科學(xué)的概念體系。這種命名方式,體現(xiàn)了在數(shù)字時代構(gòu)建中國技術(shù)話語體系的自覺與能力。
當(dāng)前,人工智能正在深刻重塑全球競爭格局。誰掌握了核心技術(shù)的定義權(quán),誰就掌握了產(chǎn)業(yè)發(fā)展的主導(dǎo)權(quán)。術(shù)語命名看似細(xì)微,實則是話語權(quán)建設(shè)及至文明發(fā)展的基礎(chǔ)工程。“詞元”的確定,是我國在數(shù)字技術(shù)基礎(chǔ)概念領(lǐng)域的一次重要實踐。當(dāng)“詞元”這個承載著中國智慧的譯名被正式確立,它所傳遞的不僅是一個技術(shù)術(shù)語的標(biāo)準(zhǔn)化,更是中國在人工智能時代對基礎(chǔ)概念進(jìn)行定義的能力與自信。
“名者,實之賓也”,“名”一旦確立,便會反過來規(guī)范人們對“實”的認(rèn)識,引導(dǎo)實踐的方向。從“詞元”出發(fā),我們對于人工智能產(chǎn)業(yè)的理解將更加清晰,對于數(shù)據(jù)要素市場的計量將更加精準(zhǔn),對于數(shù)智化發(fā)展的規(guī)律把握將更加深刻,這個來自東方的命名,終將成為全球數(shù)字技術(shù)話語體系中不可或缺的部分。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.