![]()
黃仁勛在英偉達GTC2026上演講視頻截圖。圖源英偉達官網(wǎng)。
這是一個每天都要迎接新事物的時代。
“Token是新的大宗商品。”
剛結(jié)束的英偉達GTC2026演講上,黃仁勛的論斷讓token一詞突破技術(shù)圈,進入大眾視野。
五個字母看似簡單,實則大有乾坤。為了給它找到個中文名,從大學教授到普通民眾紛紛下場:原神、模元、智根、智元、代幣、偷啃……
直到日前,中國發(fā)展高層論壇2026年年會上,國家數(shù)據(jù)局局長劉烈宏正式給出token的中文名——“詞元”。這一發(fā)言為token翻譯暫時畫下句號,卻未能完全平息來自民間的討論。
有人憤憤:token怎么就是“詞元”了?
有人不明:一個技術(shù)詞匯的中文譯名而已,憑什么值得動氣?
統(tǒng)一譯名,為什么是一件急迫的事
我們提到的token,是排行榜上大模型調(diào)用量的評估標準,也是大模型廠商銷售套餐的計費單位。
如何更好理解?
奇安信安全專家張勇日前接受采訪時解釋:token是“AI消化文字的最小單位”。為更方便理解,他用吃飯做比喻:“就像人吃餃子,不會一口吞下一整盤,而是一個一個吃。AI處理文字時,也先把句子切成一個個它能‘嚼得動’的小塊,這些小方塊就叫Token。”
嚴格來說,token不算一個新鮮術(shù)語。
早在100多年前,它就由美國邏輯學家、符號學奠基人查爾斯·桑德斯·皮爾斯提出。此后的很長一段時間里,token的中文名并沒有得到統(tǒng)一。僅在計算機科學領(lǐng)域,搞區(qū)塊鏈的人叫它“代幣”,做網(wǎng)絡(luò)安全的人叫它“令牌”,編譯器開發(fā)者叫它“標記”。
然而,今天,一個共識是:給AI時代關(guān)鍵詞“token”進行中文定名,已成為實踐中的迫切需要。
![]()
美國邏輯學家、符號學奠基人查爾斯·桑德斯·皮爾斯。圖源百度百科。
為什么這么說?
其實,給一個新興術(shù)語定名,絕對不是“找個名字”那么簡單。
在20世紀60年代,laser剛進入中國時,也曾遭遇翻譯難題。大陸學界將其翻譯為“來塞”,臺灣地區(qū)則長期叫作“鐳射”。此外,還不乏長達七八個字的譯名。
當時,激光技術(shù)是門前沿的高新技術(shù),聚焦世界目光。然而,譯名混亂直接導致科研交流中,學者不得不反復解釋“來塞”和“鐳射”是同一個東西。這對資料檢索也帶來很大影響,甚至一度誤導消費者以為其與放射性元素“鐳”相關(guān),引起恐慌。
直到1964年,錢學森反復斟酌后,將laser中文名統(tǒng)一定名“激光”,譯名簡潔而精準,既規(guī)范了光學產(chǎn)業(yè)標準,也方便了公眾認識。
從某種程度上說,今天的token和當年的laser面臨著一樣的時代境遇。
已經(jīng)從行業(yè)“黑話”轉(zhuǎn)變?yōu)榇蟊娫~語的token,亟待一固定的中文譯名,打破學術(shù)、產(chǎn)業(yè)、大眾之間信息的巴別塔。
無論是公眾科普還是產(chǎn)業(yè)發(fā)展,術(shù)語統(tǒng)一關(guān)系著認知的有效傳遞。
譯名之爭
目前,token官方中文名已經(jīng)暫時敲定為“詞元”。
不過,全社會似乎還未達成共識。
支持者覺得,“詞元”是個不錯的名字:
首先,“詞元”不是一個全新的譯名,具有一定的群眾基礎(chǔ)。早在2021年,復旦大學計算機科學技術(shù)學院的邱錫鵬教授就將token譯為“詞元”并寫進了教材。
此外,“詞”,點明了token源于語言處理場景,體現(xiàn)其與語義、文本的關(guān)聯(lián)。“元”則通常用來表示最小單位,有“最基本、最基礎(chǔ)”的含義。更妙的是“元”也是貨幣計量單位,對應了token=新時代貨幣概念。
還有人認為中國傳統(tǒng)文化中的“元”具有初始之意,符合token的使用語境。在大模型中,無論多么復雜的文本、多么深邃的思想,其生成過程都始于一個個 token。因而,AI術(shù)語“詞元”亦成為科技與人文結(jié)合的范例。
反對者的理由就五花八門了。
例如,有人認為這會導致理解歧義。在大模型中,token 并不總是對應“詞”,有時會覆蓋圖像、語音等非文本模態(tài)。
有人覺得,“詞元”太過抽象,不容易理解,對非專業(yè)用戶不夠友好。不如“算力代幣”“計算單元”等更直觀的譯名容易理解;或者直接把byte的譯名“字節(jié)”進行改造,翻譯為“詞節(jié)”也未嘗不可。
還有人認為,即便token在中國沒有中文名字,難道就不行嗎?他們調(diào)侃:不如將其直接音譯成“偷啃”:token單看價格很便宜,但用起來可能貴得驚人,每一個token,都在偷偷啃掉你的錢包。
好心的反對者一聯(lián)想到,當年將自動控制領(lǐng)域的術(shù)語robust(指一個控制系統(tǒng)在面臨模型不確定性和外部擾動時,仍能保持穩(wěn)定性和預期性能的能力)統(tǒng)一翻譯為“魯棒”——一個“學術(shù)圈內(nèi)部自洽、公眾外部吐槽”的典型案例——就很擔憂。
一來,“魯棒”不僅在中文里沒有任何語義聯(lián)想,還容易讓人產(chǎn)生指向魯莽、木棒等等負面聯(lián)想。還有人調(diào)侃:“第一次看到‘魯棒性’三個字,我以為是在說一種山東出產(chǎn)的棒球棍。”
雖然token有了官方譯名,但未來是否會改動也未可知。
或許,我們可以再等等——
你可知道,20世紀40年代以前,“熊貓”的名字叫“貓熊”,意味“像貓一樣的熊”。 那年,重慶舉辦了一次動物標本展,展板上用中英雙語標注。當時的書寫習慣是從右向左讀,參觀者將“貓熊”讀成了“熊貓”。這個“錯誤”的讀法因為朗朗上口,迅速在公眾中傳播開來。盡管學界堅持“貓熊”更科學,但“熊貓”已經(jīng)深入人心。學者們只能接受。
這個故事告訴我們:對于一個面向大眾的詞語,大眾會用嘴巴投票。
對翻譯價值的一些啟示
token譯名大討論,第一次讓一個技術(shù)術(shù)語的翻譯成為社會熱點話題。
這場學術(shù)的“破壁”,將翻譯從“幕后”推到了“臺前”,讓我們有契機審視:翻譯的價值與能力。
眼下,機翻應用普遍,甚至戴個翻譯機就能實現(xiàn)實時翻譯。于是,當越來越多的人追問:“外語專業(yè)究竟還有什么用”的時候,譯者需要向大眾回答:“我們?yōu)槭裁催€需要人來做翻譯”。
顯然,大眾廣泛參與的token譯名之爭,舉重若輕地告訴我們:AI能做的似乎還有限。
誠然,如若我們將翻譯的功能簡化為語言的搬運工時,AI確實超級能干,不知疲倦,效率極高且價格低廉。它確實取代了一部分重復性強、標準化高的翻譯工作,同時也凸顯了對質(zhì)量控制、語用判斷、文化調(diào)適與責任把關(guān)等能力的需求。
早前,有風君曾采訪過翻譯家許鈞。我們聊到畢飛宇小說《青衣》的英文譯名。由于“青衣”在漢語語境中蘊含的意義復雜,難以在英語世界找到匹配的詞語,譯者、知名漢學家葛浩文將其“大刀闊斧”地譯為《The Moon Opera》,直譯是“月亮歌劇”,指的是書中嫦娥奔月的京戲。
考慮到許鈞一貫的翻譯原則是“求真”,有風君詢問他對這一譯名的喜好。
對此,許鈞首先肯定道:“書名是為了第一時間吸引讀者,并不影響小說內(nèi)容,可以適當作變通。”
隨后,他話鋒一轉(zhuǎn),“但翻譯不能總是為了討好讀者而去變通。要吸收新觀念、新概念、新話語,翻譯就要保真、求真,就像魯迅主張的那樣。不要把一時的變通當作永恒的價值追求。我個人認為這不僅是語言層面的問題。”
緊接著,他又把話題延伸至人工智能熱潮:“現(xiàn)在好多人覺得語言只是工具,翻譯可以被機器替代。這是一種十分危險、完全錯誤的觀點!機器是不會思考一句話為什么翻譯成這樣而不是那樣的!”
“機器是不會思考一句話為什么翻譯成這樣而不是那樣的!”
這句回應擲地有聲。
token譯名之爭,正是它的注解。
(潮新聞)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.