337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

萬字解讀 | Token 要成新貨幣了,但你真的知道它是什么嗎?

0
分享至


黃仁勛說,Token 會是一個萬億美元產業的基礎,但很少人真的理解,到底什么是 Token。

馬俊杰是中國內地知名男藝人,現為時代少年團隊長、主場兼 C 位,2002 年 12 月 12 日出生于河南鄭州。

剛剛那段話是從某個 AI 大模型工具里復制粘貼下來的,是關于問題「馬嘉祺是誰」的回答。

沒錯,是馬嘉祺,但 AI 會自動替換成「馬俊杰」,有時候也會替換成「馬杰倫」、「馬祺祺」等。

可能有朋友說,這就是 AI 在胡編亂造。還真不是,除了名字以外,其他的信息都非常正確。

作為人類我們也會有類似的事情,經常我們會說,「你記不記得那個誰,就那個誰,練習時長兩年半,喜歡唱、跳、Rap、籃球,哎叫啥來著」。

就是你能說出很多精準的細節,但就是想不起那個名字,這在心理學上叫「舌尖現象」。

我們說話時大腦要走兩個步驟:第一步,語義提取——大腦鎖定了這個「東西」的所有屬性,長相、功能、感覺。第二步,音韻提取——大腦去「檔案柜」里找對應的那個名字發音。

舌尖現象的核心在于:你已經完成了第一步(理解了它),但卡在了第二步(沒找到那個詞)。因為我們人類就是要先去理解世界,然后才能去表達世界。

這個事情再繼續討論下去,就是維特根斯坦那句「我語言的局限,意味著我世界的局限。」這就會變得很復雜,但我想知道的是,那 AI 呢?「馬嘉祺」這樣的錯誤,是不是也跟它如何理解世界有關系?

AI 理解世界,跟人差不多是正好相反的。我特別簡化地來說,人是得先有具體的東西,然后才有一張詞匯表;AI 是先有一張詞匯表,然后去找對應的描述和概念。

這么說比較抽象,我舉個例子。

小時候,你看到一個紅色的、帶小點的東西。你摸到它坑洼的表皮,聞到那股特殊的清香,咬下去感受到酸甜的汁水。你的大腦里形成了一個關于這個事物的完整綜合體——顏色、形狀、氣味、味覺、手感。大人們告訴你,這個綜合體叫「草莓」。


當你突然說不出「草莓」這兩個字時,你腦子里依然有那個紅色的影子、那個味道、那種口感。

但 AI 不一樣。

AI 的「大腦」——也就是模型——里先有一張巨大的清單,里面有個詞匯叫「草莓」,或者 strawberry。AI 在訓練中讀了億萬次帶有 strawberry 的句子,它發現 strawberry 經常和 red、sweet、fruit 出現在一起。通過這些統計概率,AI 在自己的數學模型里「拼湊」出了一個關于草莓的描述。它并沒有真的見過、聞過、嘗過草莓,它只是通過這個標簽背后的數據關聯,「模擬」出了它應該是什么樣子。

甚至,在 AI 的詞匯表里,都沒有「草莓」或者「strawberry」這個詞,它有的只是一串編號,我隨便說,這個編號可能是 23764。這個編號,就叫做 Token,也就是大模型理解世界的開始。

用大模型,尤其最近裝小龍蝦 OpenClaw 的人,對這個詞肯定非常熟悉。不管你在 AI 里做什么,都需要消耗 Token,很多大模型也都是按 Token 計費的。每次你跟 ChatGPT 對話、用 Claude Code 寫代碼、讓 AI 幫你翻譯一段話,你消耗的就是 Token。你買的會員,本質上是在買 Token 的額度。

現在 Token 這個詞已經大大超過了科技里的含義,有的人說 Token 可以當員工福利,還有的人說 Token 可以當工資——當然了,說這話的無一例外都是老板。而更大的老板,NVIDIA 的 CEO 黃仁勛在 2026 年 3 月 17 號 GTC 大會上說了一句話:Token 將會是一個萬億美元市場的基礎。萬億。Trillion.

最近,Token 也有了中文譯名,叫詞元。這個翻譯我覺得并不好,原因后面會說。不過為 Token 尋找中文譯名這個行為本身,說明這個詞的影響正在超出從業人士而走向大眾——一個中文名字總比英文名字用起來方便,而且更方便出現在各類政策、規定甚至法律當中。

為了方便,在這里我們依然還是叫 Token。那問題是,Token 到底是什么?


現在常見的用法,Token 有三個含義。

一個是令牌的意思,就是你登錄一個網站之后,服務器發給你的一串隨機字符,證明「這個人驗證過了」。它本身沒有任何含義,但代表了你的身份。這個概念從 1970 年代就有了。

第二個是加密貨幣里的 Token,也就是代幣。2017 年 ICO 熱潮的時候,這個詞幾乎天天上新聞。各種加密貨幣、數字代幣,本質上就是一串代碼,沒有任何物理實體,但代表了某種價值。

第三個,就是我們今天要聊的——AI 大模型里的 Token。如果用最簡單的話來概括,Token 是語言的替代物。

要搞清楚 Token 是怎么變成今天這個樣子的,我們得從頭講起。

1906 年,美國哲學家查爾斯·桑德斯·皮爾士(Charles Sanders Peirce)在一篇論文里提出了一個區分,叫 Type-Token distinction(類型-標記區分)。

皮爾士是干什么的呢?他是美國符號學的奠基人,也是一個邏輯學家。他當時在做一件很有野心的事情:發明一套用圖形來做邏輯推理的系統,他管它叫「存在圖」(Existential Graphs)。

這個理論極其復雜,沒辦法在這里展開講。簡單來說,皮爾士試圖把人類的邏輯都用圖示的方式表達出來。就像將軍打仗要看地圖一樣——皮爾士自己就舉過這個例子——你不會說「國土就在那里啊,要地圖干什么?」地圖讓你看到地形里隱藏的關系,邏輯圖讓你看到思維里隱藏的關系。


在存在圖里,基本上就是圈圈套圈圈的形式,但它遇到一個問題。比如他在圖上畫了一個圓圈,代表「否定」。然后他在另一個地方又畫了一個圓圈,也代表「否定」。現在問題來了——這是「兩個圓圈」還是「同一個圓圈出現了兩次」?

如果你說是兩個圓圈,那它們之間是什么關系?它們為什么意思一樣?如果你說是同一個圓圈出現了兩次,那那個「同一個」的圓圈在哪里?它不在紙上的任何一個具體位置。

這不是在抬杠。對于一個試圖把邏輯推理嚴格形式化的人來說,這是一個地基級別的問題。如果你連「這個圖上有幾個東西」都說不清楚,你怎么去定義推理規則?

皮爾士用了一個很日常的例子來解釋他的解決方案。他說,你翻開一本書,一頁紙上大概有二十個 「the」。如果你在數這本書有多少字,那這二十個 the 就是二十個詞。但從另一個意義上說,英語里只有一個 「the」。那二十個只是它的二十次出現。

那個唯一的、抽象的 「the」——不存在于任何一頁紙上、不能被任何聲音說出來的那個 「the」——皮爾士叫它 Type(類型)。而紙上每一個具體的、印在那個位置的 the,他叫它 Token(標記)。

Type 是規則,Token 是實例。Type 是抽象的形式,Token 是那個形式每一次具體的、物理的顯現。

用他自己的話說——Type 不存在,但它決定了存在的東西。


這個區分解決了他的問題。從此他可以精確地說:邏輯圖上的一個符號是一個 Token——一個特定位置上的具體實例;而這個符號所遵循的規則是一個 Type——一個不依賴于任何具體位置的一般法則。兩個圓圈是兩個 Token,但它們是同一個 Type 的兩次出現。

那這個區分的效果怎么樣?

說實話,皮爾士的存在圖在他活著的時候幾乎沒有引起什么反響。他的論文寫得太晦澀了,而且那個年代數學家和邏輯學家們更習慣用線性的代數符號來做推理,覺得畫圖是繞遠路。

但皮爾士無意間抓住了一個比邏輯圖更根本的問題:任何符號系統——不管是語言、代碼還是邏輯——都同時存在于兩個層面。一個是抽象的規則層面,一個是具體的實例層面。你必須同時追蹤這兩個層面,否則你什么都說不清楚。

于是 Type-Token 這對概念被其他領域的人拿走了。1930 年代,哈佛的語言學家齊普夫(George Zipf)用 Token 來數每一個詞每一次出現,用 Type 來分類每一個不重復的詞形,然后把詞按頻率從高到低排列。

他發現了一個規律——排名第一的詞出現的次數,大約是排名第二的兩倍,是排名第三的三倍,是排名第一百的一百倍。排名乘以頻率,幾乎是一個常數。這就是齊普夫定律(Zipf‘s Law)。它不只是英語的規律——中文、法語、日語、拉丁語,幾乎所有人類語言都服從同一個分布。

緊接著,1944 年,心理學家約翰遜提出了 Type-Token Ratio(類型-標記比)——用來衡量一段文本的詞匯豐富度。這個指標到今天還在用。皮爾士那個「一頁紙上有幾個 the」的哲學問題,就這樣變成了可以量化、可以畫曲線、可以發現規律的科學工具。

然后,計算機來了。


1960 年代,編譯原理。這是 Token 在數字世界的第一次生命——它成了語法的替身。

當你寫下一行代碼——比如「int x = 5;」——計算機并不能直接讀懂它。編譯器做的第一件事,就是把這行代碼切碎。「int」是一個 Token,代表「整數類型」。「x」是一個 Token,代表變量名。「=」是一個 Token,代表賦值。「;」也是一個 Token,代表語句結束。

編譯器不理解代碼的「意思」。它只需要把連續的字符流切成一個個有身份的小單元,再按規則組裝。這個過程就叫 tokenization(詞法分析)。

有意思的是,編譯器里的 tokenization 和皮爾士的 Type-Token 完全對應。編譯器先定義一套 Type——關鍵字、加減乘除這些運算符號、變量名這些類別——然后在代碼中識別出每一個 Token,也就是這些 Type 的每一次具體出現。第一個「int」和第一百個「int」是同一個 Type 的不同 Token——和皮爾士數 「the」 的邏輯一模一樣。

到這里,就和我們現在使用的 Token 意思基本差不多了——都是把一種語言分割,然后方便計算機識別。但還有一個問題是之前沒有遇到的:到底怎么分割自然語言?

編譯器切代碼,其實是很幸福的一件事。因為代碼是人造的,它有嚴格的語法規則。「int」就是「int」,分號就是分號,空格就是分隔符。你不需要猜,規則——也就是那個 Type——已經預先確定好了,替你決定了從哪里切。

但自然語言不是人造的。或者說,它是幾十億人在幾萬年里「合造」的,沒有人坐下來寫過一份規格說明書。


英語還好一點。單詞之間有空格,你至少知道從哪里切。「I love cats」 三個詞,三個 Token,清清楚楚。

但這個「按空格切」的方案,一碰到現實就碎了。三堵墻同時堵在路上。

第一堵墻:詞表爆炸。英語里 cat 是一個詞,cats 是一個詞,love、loved、loving 也都各是一個詞。如果每個詞形都算一個獨立的 Token,英語光是有記錄的詞形就有幾十萬個。德語更夸張,它可以把幾個詞黏在一起變成一個超長的復合詞——你可能見過那個著名的例子,Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz。這是一個關于牛肉標簽監管職責轉讓的法律用語,六十三個字母黏在一起算一個詞。你的詞表要不要收錄它?如果要收錄,那類似的復合詞有多少個?詞表需要無限大。

第二堵墻:未登錄詞。你用訓練數據建了一張詞表,里面有十萬個詞。然后用戶輸入了一個不在詞表里的詞——一個品牌名、一個網絡流行語、一個拼寫錯誤。怎么辦?早期的做法是把所有不認識的詞統一標記成一個特殊符號「UNK」,意思是「未知」。這就形成了一個悖論:比如「蔡徐坤」不在詞表里,你去問 AI「我想了解蔡徐坤」,AI 看到的是「我想了解 UNK 」。你整句話里最關鍵的那個信息,對 AI 來說是一片空白。

第三堵墻:很多語言沒有空格。中文沒有空格,日語沒有空格,泰語沒有空格。全世界大多數人說的語言,詞和詞之間是不分開寫的。比如「乒乓球拍賣了多少錢」,從哪里切?乒乓球、拍、賣,還是乒乓球、拍賣?「了」算一個詞還是一個語法標記?這不是一個有標準答案的問題。中文分詞到今天都是自然語言處理里的經典難題。

所以你看,「按空格切」這個最直覺的方案,只在很有限的條件下管用。

大家想了別的辦法。往上走,詞干提取,把 cats 還原成 cat,把 loving 還原成 love,這樣詞表就小了。但你得為每種語言手寫規則,英語的不適用于德語,德語的不適用于中文,對非歐洲語言基本沒用。往下走,按字母切。「hello」 切成 h、e、l、l、o,詞表只有 26 個字母加一些符號,絕對不會爆炸,也絕對不會碰到未登錄詞。但代價巨大——序列太長了。一個句子按詞切只有 50 個 Token,按字母切可能有 300 個。序列越長,訓練越慢,效果越差。

上也不通,下也不通,中間也沒有通用的方案。

直到 2016 年。


2015 年到 2016 年,神經機器翻譯——就是用深度學習做翻譯——正在快速崛起。Google、百度都在押注這個方向。效果比傳統的統計翻譯好了一大截,但有一個問題始終解決不了:生詞。

神經翻譯模型需要一張固定的詞表,通常是三萬到五萬個詞。但翻譯天生就是一個開放詞匯的問題——你永遠不知道用戶會輸入什么。一個德國城市的名字、一個新成立公司的名字、一個剛發明的科學術語,只要它不在詞表里,模型就只能輸出 「UNK」——「我不認識」。

之前的解決辦法是「查詞典兜底」——碰到不認識的詞,就去詞典里找對應的翻譯硬塞進去。但這個做法很笨拙。首先你得有詞典,其次詞典里也不一定有這個詞,最后硬塞進去的翻譯經常和前后文格格不入。

愛丁堡大學的 Rico Sennrich 和他的同事——Barry Haddow 和 Alexandra Birch——意識到一件事:其實很多「生詞」并不是真的全新的。人名可以通過音譯處理,復合詞可以拆開翻譯,同源詞可以通過形態變換識別。也就是說,很多詞的翻譯可以在比「詞」更小的單位上完成。

問題是:這個「更小的單位」是什么?怎么切?

Sennrich 的思路很簡單:別讓人來決定怎么切了,讓數據自己決定。他用了一個叫 BPE 的算法——Byte Pair Encoding(字節對編碼)。

這個算法也不是 Sennrich 的原創,事實上在 1994 年就有人提出來了,作者叫 Philip Gage,文章發表在 《The C Users Journal》雜志上。這不是一個學術期刊,而是一本面向 C 語言程序員的實用技術雜志,主要刊登編程技巧和小工具。放在今天大概相當于在 Medium 或者某個技術博客上發了篇帖子。

這也不是一個很好的壓縮方案。Gage 在論文里自己就承認,BPE 的壓縮率不如當時已經廣泛使用的 LZW 算法——就是 zip 文件使用的那種算法。

他說 BPE 的優勢是解壓程序特別小、解壓速度特別快,適合一些內存有限的場景。多有限呢?比如早期的工業控制器、某些專用儀器、資源極其受限的微處理器。這些設備可能只有幾 KB 的內存,一個標準的 LZW 解壓庫放不進去,但 BPE 的解壓代碼幾十行 C 就能搞定。

但更廣泛的場景——也就是個人電腦里——雖然內存遠遠不能跟現在相比,但也已經是 MB 級別的了,反而硬盤空間和網絡帶寬緊張,需要更高的壓縮率。

它的唯一優勢(解壓程序小)只在極少數人關心的場景里有意義,而它的劣勢(壓縮率不如主流方案)在大多數人關心的場景里很明顯。

這就好比說,你有一臺冰箱,制冷不行,耗電也不行,唯一的優勢是這是個大象形狀的,方便把大象裝進去。

現在大象來了。

整個人類的語言庫,就是那頭巨大無比的大象。Sennrich 看出了一個關鍵的類比:數據壓縮在做的事情——找到重復出現的模式,用更短的符號代替它——和語言切分需要做的事情,在結構上是一樣的。一個在極小眾場景里發明的壓縮算法,就這樣被搬到了自然語言處理。


把這頭大象裝進去,總共分三步:

第一步:把所有文字打散成最小的單位——字節。英文字母一個字節,中文漢字在 UTF-8 編碼(一種通用的字符編碼標準)下通常是三個字節。這一步不需要任何語言學知識,不管你是什么語言,到了字節這一層,大家都一樣。

第二步:掃描整個訓練語料,統計哪兩個相鄰的字節出現在一起的次數最多。比如在英文里,t 和 h 經常挨著出現,因為 the、that、this、think 這些高頻詞都以 th 開頭。好,把 t 和 h 合并成一個新的符號 th,分配一個新的編號。因為 0 到 255 已經被基礎字節占了,所以第一個新符號從 256 開始。

第三步:在合并之后的基礎上,再統計。th 和 e 經常一起出現——合并成 the,編號 257。th 和 a 也經常一起——合并成 tha,編號 258。

如此反復,迭代幾萬次。每一次迭代,都把當前出現頻率最高的一對合并成一個新的符號。

原理就是如此。沒有語法分析,沒有詞典,沒有任何人類對語言的理解。就是數數。

最終你會得到一張詞表——通常是幾萬到十幾萬個 Token。這張詞表里有什么?常見的英文單詞,比如 the、and、is,各自是一個完整的 Token。常見的中文漢字,比如「的」、「是」、「我」,也各自是一個完整的 Token。

但不常見的字、不常見的詞、不常見的組合——它們沒有攢夠足夠的頻率被合并成獨立的 Token,就只能留在碎片狀態。比如 「Krzyzewski」——前杜克大學籃球主教練老 K 的姓——會被拆成五六個碎片。

但關鍵是:它不會消失。不管多生僻的詞,BPE 都能把它拆成已有的小碎片來表示。永遠不會輸出「UNK」。

還記得前面的三堵墻嗎?詞表爆炸、未登錄詞、沒有空格——BPE 一次性全部推倒。詞表大小可控,幾萬個就夠;任何新詞都能用現有碎片拼出來;不需要空格,因為切分完全由統計驅動。

如果你還記得前面說的齊普夫定律——少數詞出現頻率極高,大量詞出現頻率極低——你就會發現 BPE 在做的事情,本質上就是把齊普夫定律翻譯成了一張編碼表:高頻組合變成短編碼,低頻組合留在長編碼。和信息論的精神一脈相承:常見的東西應該占更少的空間。


講到這里,值得思考一個問題:BPE 和之前拆 Token 的方式,最本質的不同是什么?

從皮爾士到齊普夫到編譯器,我們都首先需要去理解規則,也就是理解 Type,才能去做分析和拆分。皮爾士說 「the」 是一個詞,那是人類的語言規范。編譯器說 `int` 是關鍵字,那是程序語言設計者寫下的規則。

一百一十年來,Token 可以是任何東西的替身,但 Type——那個定義「什么是一個有意義的單位」的權力——始終在人類手里。

但 BPE 不一樣。

BPE 根本不問「什么是一個詞」。它不關心語法,不關心詞根,不關心任何人類對語言的理解。它只做一件事:數字節對出現了多少次。the 成為一個 Token,不是因為有人告訴系統 「the 是英語里的定冠詞」,而僅僅是因為 t-h-e 這三個字節碰巧在訓練數據里反復挨在一起。

換句話說——BPE 的詞表里沒有 Type。或者更準確地說,BPE 用 Token 的統計分布取代了 Type。它不需要人類來定義什么是一個有意義的語言單位,它讓頻率自己「涌現」出有意義的單位。

這也是為什么 BPE 是一件極其強大的武器——它不依賴任何語言學知識就能處理所有語言,因為它根本不需要知道什么是「詞」。Sennrich 在論文里解決的那個問題——生詞——也因此被徹底消解了:當你的系統不再以「詞」為單位,就不存在「詞表里沒有的詞」這回事。任何文本都可以被拆到字節層面,然后從字節往上合并到它在詞表里能達到的最高層級。


但這還不是終點。

2018 年,OpenAI 發布 GPT-2 的時候,對 Sennrich 的 BPE 做了一個重要的改進。

Sennrich 原版的 BPE,起點是字符——英文字母、中文漢字、標點符號這些。這意味著你得先告訴系統「這些是英文字符、這些是中文字符、這些是阿拉伯文字符」——雖然比「告訴系統什么是一個詞」要簡單得多,但你仍然需要一套字符表,而且不同語言的字符表不一樣。

OpenAI 的做法是再往下走一層:不從字符出發,從字節出發。


什么是字節?計算機里所有的東西——文字、圖片、音樂、視頻——在最底層都是 0 和 1。每 8 個 0 和 1 組成一個字節。一個字節能表示 256 種不同的狀態,從 0 到 255。

在 UTF-8 編碼下,一個英文字母恰好是一個字節。字母 A 是字節 65,B 是 66,z 是 122。一個中文漢字需要三個字節。比如「馬」這個字,在 UTF-8 里是三個字節:229、184、172。不是一個數字,是三個數字拼在一起。

改進版被稱作 Byte-level BPE,簡稱 BBPE,起點就是這 256 個基礎字節。不管你輸入的是英文、中文、阿拉伯文、緬甸文還是 emoji,到了字節這一層,大家都是 0 到 255 之間的數字,沒有區別。然后 BPE 在這個基礎上做合并——高頻的字節對合并成新符號,再合并,再合并,迭代幾萬次,生成最終的詞表。

BPE 的處理對象還是自然詞匯,但 BBPE 不再需要知道世界上有多少種文字。它不需要一張字符表,不需要知道中文和英文的區別,不需要任何關于語言的先驗知識。萬物皆字節,字節皆可合并。

這就是為什么 GPT 系列模型能「處理任何語言」——不是因為它學過所有語言,而是因為它的起點足夠低。低到了字節。在字節面前,所有語言一律平等。

聽起來很美好,美好到不現實,對吧?


不平等在訓練之前已經發生了。

英文字母一個字節就是一個字符,BPE 從一開始就在處理有意義的單位。而中文漢字需要三個字節,BPE 得先把這三個碎片合并回一個字,才能開始處理「有意義」的東西——它的起跑線就比英文靠后了一步。

再加上訓練數據里英文內容占絕對多數,英文的字節組合有大量的統計支撐去合并成完整的單詞甚至短語,而中文的字節組合能合并回單字就不錯了,更別說詞組。

舉個例子。在 GPT-5 的 Tokenizer 里,「字節跳動的短視頻平臺抖音」,總共 12 個漢字,需要用 11 個 Token;而英文版 「ByteDance‘s short video platform Douyin」 有 40 個字母,只需要 9 個 Token——要注意,ByteDance 和 Douyin 甚至都不是真正的英文單詞,但在英文里依然效率更高。

我們可以仔細看一下「字節跳動的短視頻平臺抖音」是怎么變成 Token 的。「視頻」和「平臺」都是一個 Token,「抖」占了兩個 Token。

這里多解釋一下,為什么一個漢字會占據兩個 Token。像前面所說,BBPE 不是面向字符編碼,而是面向字節編碼。「抖」對應的編碼是 230、138、150,很可能在數據庫里,230 與 138 的組合是高頻的,但再加上 150 的話頻率就沒那么高了,所以編碼 230、138 對應了一個 Token,而編碼 150 單獨對應一個 Token。

每個字單獨編碼,偶爾兩個字能合并,但也有些字需要拆分。總體上,中文的 Token 消耗就是比英文高。

那這意味著什么呢?

大模型是按 Token 計費的。OpenAI 的 API,每一千個 Token 收多少錢,白紙黑字寫在價格表上。你消耗更多的 Token,你就付更多的錢。


而且不只是付錢的問題。大模型有上下文窗口(context window,模型一次能「記住」的內容量)——就是它一次能處理的 Token 總量上限。GPT-4 的上下文窗口是 128k 個 Token。

這意味著如果你用英文,你可以在一次對話里塞進去大約十萬個英文單詞——差不多一本中等篇幅的小說。但如果你用中文,同樣的 128k 個 Token,你能塞進去的內容就要少很多。

同樣的窗口,中文用戶能說的話更少。

付更多的錢,得到更少的空間,獲得更短的回答。這就是 Token 不平等的經濟學。

但中文至少還算「大語言」。訓練數據里中文內容雖然不如英文多,但也有相當的規模,足以讓常用漢字被合并成獨立的 Token。

真正慘的是那些小語種。

近年來,多項研究對這個問題做了系統的測算。他們發現,同樣的語義內容,用不同語言表達所消耗的 Token 數量差異可以達到十幾倍。

英文是基準——消耗最少的 Token,中文大約是英文的 1.5 到 2 倍,日語、韓語類似,緬甸語、藏語、阿姆哈拉語等語言,同樣的內容可能需要英文 5 到 10 倍的 Token

為什么?因為這些語言在訓練數據里幾乎不存在。BPE 在訓練的時候沒有見過足夠多的緬甸文,所以緬甸文的字節組合從來沒有機會被合并——它們永遠停留在最碎的碎片狀態,每一個字都被拆成三四個字節碎片,每個碎片各占一個 Token。

想象一下:一個緬甸語用戶和一個英文用戶買同樣的 API 額度,但緬甸語用戶只能用英文用戶五分之一的信息量。同樣的錢,五分之一的服務。


這跟電報很像。

電報編碼——莫爾斯碼——是這樣設計的:最常用的字母用最短的編碼。E 是一個點,T 是一個劃,A 是一點一劃。而不常用的字母用更長的編碼——Q 是兩劃一點一劃,Z 是兩劃兩點。

但莫爾斯碼是基于英文字母頻率設計的。當電報技術推廣到全世界的時候,其他語言怎么辦?中文怎么發電報?漢字不是字母,你不能直接用點和劃來編碼。

解決方案是:給每個漢字分配一個四位數字編碼——0001 到 9999。發電報的時候,先把漢字翻譯成數字,再把數字翻譯成莫爾斯碼發出去。一個漢字就是四個數字,每個數字都要用莫爾斯碼逐個發送。

一個英文字母平均需要 2 到 3 個莫爾斯碼信號。一個漢字呢?四個數字,每個數字平均需要 5 個信號——總共大約 20 個信號。

同樣一個意思,中文電報的信號量是英文的七八倍。電報是按字數或者按信號量計費的,所以中文電報比英文電報貴得多。直到八九十年代,小學生寫作文還有個練習,就是寫電報,看誰能用最少的字把事情說清楚。

類似的事情不停在重復。

打字機在 1870 年代發明,但卻是為拉丁字母設計的。最早的中文打字機是什么樣子?一個金屬托盤上排著幾千個鉛字,打字員用小桿子一個一個找,速度是英文的十分之一。當時很多人,包括魯迅在內,得出結論說中文是落后的文字,中國想要走向文明,漢字就得拉丁化。

對這段歷史有興趣的朋友,可以看看墨磊寧的《中文打字機》這本書,我就不展開了。我想說的是,近現代以來,每一次人類發明一種新的信息編碼系統——電報、打字機、計算機、AI——都會重新制造一次語言不平等。而且這種不平等的方向幾乎每一次都是一樣的:英文最便宜、最高效、最方便,然后按語言與英文的「距離」遞減。拉丁字母語言其次,東亞語言再次,南亞和非洲語言最末。

誰的語言最先被編碼,誰就是標準;后來者永遠在適配。

當然,你可能說,技術是中立的,這不是故意歧視。BPE 不是故意歧視中文或者緬甸語,它只是按頻率統計做了最優壓縮。

對。完全對。沒有人故意歧視。你不需要故意歧視,你只需要選擇一個「合理的」起點——比如「按頻率統計」——然后讓系統自動運行。不平等會自己涌現出來。

因為「頻率」不是一個客觀的自然屬性。它是由誰在生產內容、誰的語言在互聯網上有最多的文字、誰的文化有最發達的出版和傳播體系來決定的。

BPE 把這種歷史性的權力不對稱,通過一個看似中性的算法,編碼進了 AI 系統的最底層。然后這個系統給全世界所有人使用。每一個人,每說一句話,都在為這種不平等付費。而他們中的大多數人甚至不知道 Token 是什么。


當然這個事情也在改善。

我做了一個測試。打開 OpenAI 的 tokenizer 工具,輸入同一句中文:「馬嘉祺是時代少年團隊長,蔡徐坤不是。」然后切換不同版本的 tokenizer 看看各需要多少 Token:

GPT-3.0 的 tokenizer:38 個 Token, GPT-3.5 和 GPT-4.0 的 tokenizer:26 個 Token, GPT-5 的 tokenizer:15 個 Token

同一句話,三代模型,Token 消耗從 38 降到了 15,降了 60%。

這說明 OpenAI 在每一代模型中都在給中文更多的詞表席位,讓更多的漢字和常見詞組被完整保留,而不是拆成碎片。

中文用戶有十幾億人。市場夠大,商業動力夠強,所以 OpenAI 愿意優化。中國自己的 AI 公司也在做同樣的事。豆包、千問、月之暗面等等——這些國產大模型都在自己訓練 tokenizer,策略很簡單:在詞表里給中文更多的「席位」,讓更多的中文字符組合被合并成獨立的 Token,減少中文被拆碎的概率。

但詞表總容量是有限的。GPT-5 的詞表大約 20 萬個 Token。你給中文多一個席位,就得給其他語言少一個。中文有大公司撐腰。但前面提到的那些小語種,沒有人為它們做這件事。

緬甸語有五千多萬人在說。藏語呢?宗卡語呢?這些語言的 tokenizer 效率,從 GPT-3 到 GPT-5,大概率沒有同等幅度的改善。因為沒有商業動力,沒有十幾億用戶的市場在那里等著。

語料配比——用多少英文、多少中文、多少緬甸文來訓練 BPE——本質上是一個隱性的決策:誰的語言更值得被高效表示?這個決策沒有人公開討論過。它埋在技術文檔的某一行參數里。但它決定了數十億人使用 AI 的成本和體驗。

BPE 用頻率取代了 Type。它不再由人類來定義什么是一個有意義的單位,而是讓統計數據自己決定。這個選擇帶來了語言不平等——高頻的語言被完整保留,低頻的語言被碎成碎片。

但這個后果不只發生在語言和語言之間,它同樣發生在同一種語言內部。


回到馬嘉祺。

我還是不能給出確切的結論,究竟為什么大模型不認識「馬嘉祺」,但可以肯定與 Token 生成有關。想象你在玩拼圖游戲。常見的圖案——比如「天安門」、「長城」——廠家會給你完整的大塊拼圖,一塊就能拼出來。但生僻的圖案——比如某個小眾景點——廠家沒有專門的大塊,你只能用很多小碎片拼湊。

「祺」這個字就是那個小眾景點。它在訓練數據里出現的頻率不夠高,BPE 算法沒有給它分配一個完整的 Token,而是把它拆成了兩個小碎片。這兩個碎片單獨看都沒什么意義,就像拼圖的邊角料。

現在問題來了。當 AI 要生成「馬嘉祺」這個名字時,它需要先找到「馬」,再找到「嘉」,最后找到「祺」的那兩個小碎片,把它們按正確順序組裝起來。但 AI 在訓練時很少見過這個組合——「馬嘉」加上那兩個特定碎片——出現的次數太少了。

相反,「馬俊杰」、「馬杰倫」這些組合,每個字都是完整的大塊 Token,而且這些組合在訓練數據里出現過更多次。對 AI 來說,這些組合就像是一條被走過很多遍的路,路面平整、標記清晰。而「馬嘉祺」就像是一條幾乎沒人走過的小路,路標模糊、碎石遍地。

當 AI 要生成答案時,它會自然而然地選擇那條更平整的路。不是因為它「不認識」馬嘉祺,而是因為在它的 Token 系統里,「馬嘉祺」這條路從一開始就沒有被修好。


類似的問題還有很多,在大模型領域有個專門的名詞,就叫 Glitch Tokens(故障詞元),意思是那些會讓大模型運行出問題的 Token。

你可能會想:那把模型做大一點、做強一點,不就解決了?剛剛不也說,從 GPT-3 到 GPT-5,確實中文 Token 效率在提高。

很不幸,不能。

2026 年 1 月有一篇關于 Token 的論文《Say Anything but This: When Tokenizer Betrays Reasoning in LLMs(什么都能說,就是不能說這個:當 Tokenizer 背叛了大模型的推理能力)》。

研究者發現了一件事:tokenizer 給模型提供了一條「阻力最小的路徑」。當模型需要生成某個答案的時候,如果詞表里恰好有一個現成的 Token 能直接輸出,模型就會走這條捷徑,而不是真正去推理。

我舉個例子讓你感受一下。假設模型需要回答「52 加 37 等于多少」。正確答案是 89。但如果詞表里恰好有一個 Token 對應 「88」,而且這個 Token 在模型的內部空間里離 「89」 很近、出現頻率很高——模型可能就會滑向 「88」。不是因為它不會算,而是因為 「88」 這條路更絲滑。

研究者做了一件反直覺的事:他們把這些捷徑堵住了——強制移除那些容易造成混淆的 Token,逼模型走推理的路。

結果呢?模型反而表現更好了。

這說明什么?說明模型本身有推理能力。問題不在「腦子」——在「眼睛」。Tokenizer 是在模型訓練之前就凍結的感知器官,模型再強也改不了它。

這就好比你給一個天才畫家戴上一副度數不對的眼鏡,而且這副眼鏡焊死在臉上了,這輩子摘不下來。他畫技高超,構圖、色彩、光影都對,但遠處那個人名字里的生僻字,他就是看不清。

不是腦子的問題,是眼睛的問題。

論文得出結論:模型變大不能解決這個問題,Scaling 無效。因為問題在架構層面——tokenizer 在模型訓練之前就固定了,模型再大、參數再多,也是在一個被固定的感知框架里訓練出來的。

眼睛的分辨率,在出生前就定了。這就是 BPE 放棄 Type 的真正代價。


當 Type 是人定義的時候——比如在編譯器里——人可以確保每一個被定義的類別都是完整的、精確的、沒有歧義的。`int` 就是 `int`,絕不會和 `integer` 混淆,因為設計者明確規定了它們的區別。

但當你把 Type 的定義權交給頻率統計,你得到的「類別」就不再有這種保證了。高頻的組合被識別得又快又準,低頻的組合就模糊、破碎、容易混淆。

不是均勻的不完美,而是有一條清晰的斷裂線——沿著頻率分布的長尾畫下去。

這意味著什么?

意味著你叫「張偉」,AI 不會寫錯你的名字。但你叫「馬嘉祺」,它可能每次都寫錯。你用英文問它問題,它的回答精準而流暢。你用緬甸語問同一個問題,它的回答碎片化、不連貫、甚至可能是錯的。

這不是兩種不同的 AI。是同一個 AI,用同一個 tokenizer,在頻率曲線的兩端展現出的兩張面孔。

在高頻的那一端——英文、常用詞、熱門話題——它看起來無所不知、無所不能。這是你在社交媒體上看到的那個 AI,是科技公司在發布會上展示的那個 AI,是黃仁勛說價值萬億美元的那個 AI。

在低頻的那一端——小語種、生僻字、冷門知識——它變得遲鈍、模糊、不可靠。但這一端的用戶,恰好是那些最缺少替代信息來源的人。

在 Token 的世界里,「罕見」和「不重要」在統計上是同一件事。

這就是為什么法律文本用 AI 輔助的時候,罕見的術語可能會被模糊處理。醫療診斷用 AI 輔助的時候,罕見病的名字可能會變成碎片。教育內容用 AI 生成的時候,少數語言的知識可能會被磕磕絆絆地拼湊。不是有人故意忽略了這些——而是這個系統從一開始就沒有能力區分「罕見」和「不重要」。

AI 最不準確的地方,恰好是人們最需要它準確的地方。


這也是為什么我在開頭說,「詞元」不是一個好的翻譯。

「詞」字暗示 Token 是一個「詞」層面的單位。但你現在已經知道了,Token 不是詞。它可以是一個完整的詞,也可以是半個字,也可以是一串毫無意義的字節碎片。BPE 生成的 Token 不遵循任何語言學上對「詞」的定義——事實上,BPE 的全部意義就在于放棄了「詞」這個概念。

「元」字有「基本單位」的意思——元素、單元、元件。這暗示 Token 是一個穩定的、自然的、有明確邊界的基本粒子,好像它是語言內在結構的一部分,甚至是詞的某種本質特征。但 Token 的邊界不是由語言的自然結構決定的,而是由訓練數據的頻率分布決定的。換一批訓練數據,同一個字可能從一個 Token 變成兩個 Token,或者從兩個變成一個。它是一個統計產物,不是一個語言學概念。

前面說過,Token 是語言的替代物——它不是語言本身,更不是語言的某種本質,它只是一個代替語言被計算機處理的編號。但「詞元」這個譯名恰恰把這層關系遮蔽了。這就好比你造了一輛沒有方向盤的自動駕駛汽車,然后給它起名叫「方向盤號」。

但不管叫它什么,Token 已經在這里了,還成了黃仁勛口中所說的「萬億美元市場的基礎」。他說,NVIDIA 的 AI 芯片是「Token 的鑄造機」。

你可能會想:既然 Token 有這么多問題——bug、不平等、幻覺——為什么它還能成為萬億美元市場的基礎?

因為權力的基礎,從來就不是完美的東西。


美元。1971 年之前,美元和黃金掛鉤——一盎司黃金 35 美元,白紙黑字。那時候美元有一個「本體」在支撐它:黃金。1971 年,尼克松取消了金本位。從那以后,美元靠什么?靠大家相信它有價值。

2008 年金融危機,全世界發現——度量衡沒變,但桶里是空的。那些評級為 AAA 的金融產品,底下是一層一層的次級貸款。替身看著光鮮亮麗,本體早就爛了。

但美元崩潰了嗎?沒有。它繼續是全球儲備貨幣。為什么?因為在它崩潰之前,替代它的成本已經高到沒人承受得起。全世界的貿易合同用美元結算,全世界的央行用美元儲備,全世界的大宗商品用美元定價。你可以說美元有問題,但你拿什么替代它?歐元?人民幣?每一種替代方案的切換成本都是天文數字。

比特幣。一個算法加一群人的信仰。能耗荒謬,價格劇烈波動,每秒處理的交易量還不如一家縣城超市的收銀臺。但沒有阻止它成為一種權力載體。

甚至語言本身。漢字筆畫順序誰規定的?英語拼寫為什么這么不規則?為什么 Wednesday 中間有一個不發音的 d?為什么 island 里有一個不發音的 s?沒有人「設計」了這些。都是歷史偶然的層層累積——某個世紀的某個抄寫員寫錯了一個字,后人將錯就錯,錯誤凝固成了規范。但語言照樣運轉,照樣承載了人類全部的文明。

Token 的故事不是一個騙局,也不是一個幻覺,它只是一個偶然中誕生又在歷史里起起伏伏最終擁有了權力的詞語。


1906 年,皮爾士在研究邏輯圖時提出了 Type-Token 區分,他只是想數清楚紙上有幾個圓圈。

1994 年,Philip Gage 在《C Users Journal》上發表了一個壓縮小工具,他只是想在內存有限的工控設備上節省幾個字節。

2016 年,Rico Sennrich 把這個壓縮算法用到了神經機器翻譯,他只是想解決翻譯中的生詞問題。

2018 年,OpenAI 把 BPE 改成了 Byte-level,他們只是想讓 GPT-2 能處理更多語言。

每一步都是合理的。每一步都是局部的。每一步都解決了當時的問題。

這就是權力最常見的誕生方式,不是有人坐下來精心設計了一個統治系統——而是一連串當時看起來合理甚至無關緊要的選擇,在沒人注意的情況下,凝固成了新的秩序。

我們都知道,現在是一個歷史轉折時刻,不僅僅是通用人工智能取代人類,也是人類正把什么是意義、什么是規則的定義權交給統計數據。

我們所有人,正站在這個轉折的中間,還沒來得及想清楚這意味著什么,就已經在擁抱它了。

還可以看這些

歡迎來我的知識星球

周二到周四,我將每天提供一份互聯網/科技/消費等行業的觀察,可能是獨家消息,可能是趨勢分析,也可能是不方便在其他渠道公開的內容。

星球初建,前 20 名成員將享受系統可能設定的最低價 50/年,之后隨著內容增多,價格也會提高。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
利物浦血虧!7500 萬歐棄將伯納烏封神,紅軍腸子都悔青了

利物浦血虧!7500 萬歐棄將伯納烏封神,紅軍腸子都悔青了

瀾歸序
2026-04-08 05:16:19
蘇萊曼尼親屬在美被捕的新聞,揭開了“離岸愛國”的內幕

蘇萊曼尼親屬在美被捕的新聞,揭開了“離岸愛國”的內幕

清書先生
2026-04-07 17:40:31
李小林被查!鐵血軍魂不許玷污一聲驚雷,又一只“老虎”應聲落馬

李小林被查!鐵血軍魂不許玷污一聲驚雷,又一只“老虎”應聲落馬

歸史
2026-04-07 23:08:14
歐冠晉級形勢一夜大變:皇馬落敗,拜仁攻陷伯納烏,阿森納絕殺

歐冠晉級形勢一夜大變:皇馬落敗,拜仁攻陷伯納烏,阿森納絕殺

足球狗說
2026-04-08 05:24:39
宋志勇,明確為正部長級

宋志勇,明確為正部長級

界面新聞
2026-04-07 20:19:05
反詐老陳連續4年曬納稅證明:2025年收入42.3萬元,較2022年133.6萬元的總收入,其收入下降了超90萬元

反詐老陳連續4年曬納稅證明:2025年收入42.3萬元,較2022年133.6萬元的總收入,其收入下降了超90萬元

臺州交通廣播
2026-04-07 18:46:55
零緩沖!全國一刀切!6月1日起,車主自己去車管所“橫著走”!

零緩沖!全國一刀切!6月1日起,車主自己去車管所“橫著走”!

混沌錄
2026-04-07 22:00:19
一個也不該拋棄---不僅救自己大兵,也救中國漁民

一個也不該拋棄---不僅救自己大兵,也救中國漁民

通往遠方的路
2026-04-07 15:54:35
伊朗民眾組成人鏈保護發電廠和橋梁

伊朗民眾組成人鏈保護發電廠和橋梁

界面新聞
2026-04-07 22:42:24
檳榔包裝上印著劉德華肖像,品牌方稱并非代言,而是18年前《投名狀》劇照宣發,律師解讀

檳榔包裝上印著劉德華肖像,品牌方稱并非代言,而是18年前《投名狀》劇照宣發,律師解讀

極目新聞
2026-04-07 19:20:23
曝陳麗華已負債,連工資都發不起,但早已為遲重瑞鋪好路!

曝陳麗華已負債,連工資都發不起,但早已為遲重瑞鋪好路!

古希臘掌管松餅的神
2026-04-07 13:23:58
重慶一業主40萬賣房,買家重裝后69.8萬售出,第二買家以天花板有排污管道泄漏起訴,一審判業主擔責近80萬

重慶一業主40萬賣房,買家重裝后69.8萬售出,第二買家以天花板有排污管道泄漏起訴,一審判業主擔責近80萬

瀟湘晨報
2026-04-07 08:41:11
時速超300!鄭麗文體驗大陸高鐵速度

時速超300!鄭麗文體驗大陸高鐵速度

叮當當科技
2026-04-07 18:47:11
不裝了,攤牌了!日本18歲新星承認,乒超練1年,頂在日本打10年

不裝了,攤牌了!日本18歲新星承認,乒超練1年,頂在日本打10年

萌蘭聊個球
2026-04-07 20:33:11
李小林被查!鐵血軍魂不許玷污一聲驚雷,又一只“老虎”應聲落馬

李小林被查!鐵血軍魂不許玷污一聲驚雷,又一只“老虎”應聲落馬

觸摸史跡
2026-04-07 18:20:41
因中國工人待遇問題,巴西將比亞迪列入“恥辱名單”

因中國工人待遇問題,巴西將比亞迪列入“恥辱名單”

互聯網大觀
2026-04-07 15:43:15
巴基斯坦斡旋美伊談判持續進行 未來數小時“至關重要”

巴基斯坦斡旋美伊談判持續進行 未來數小時“至關重要”

財聯社
2026-04-07 23:16:26
NASA團隊:三峽大壩造成地球自轉軸位移,極點位置移動了2公分

NASA團隊:三峽大壩造成地球自轉軸位移,極點位置移動了2公分

心中的麥田
2026-04-07 19:09:35
皇馬主場淪陷:歐冠晉級形勢惡化,姆巴佩破門,維尼修斯屢失良機

皇馬主場淪陷:歐冠晉級形勢惡化,姆巴佩破門,維尼修斯屢失良機

足球狗說
2026-04-08 04:53:58
85歲富商陳麗華去世,和老公互稱董事長遲先生,百億遺產早有安排

85歲富商陳麗華去世,和老公互稱董事長遲先生,百億遺產早有安排

新金牌娛樂觀察家
2026-04-07 11:30:32
2026-04-08 05:47:00
灑家君澤
灑家君澤
我所知道的過去,我所期待的未來
41文章數 10關注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

特朗普:伊朗人愿為自由承受轟炸

頭條要聞

特朗普:伊朗人愿為自由承受轟炸

體育要聞

阿韋洛亞:諾伊爾是本場最佳;我們會帶著必勝的信念前往德國

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產

財經要聞

10萬億財政轉移支付,被誰拿走了?

汽車要聞

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

教育
房產
數碼
藝術
公開課

教育要聞

別再問“哪個專業最好”先問這3個問題!選錯專業=毀四年#新學期超給力

房產要聞

重磅!三亞擬出安居房新政!

數碼要聞

MacBook Neo爆火背后,蘋果芯片庫存要見底了?

藝術要聞

李苦禪這簡簡幾筆,能讓你歡快一整天

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版