最近,隨著龍蝦OpenClaw的爆火,token也成了高頻詞。“養(yǎng)龍蝦”并不是免費(fèi)的,OpenClaw需要接入大模型,平時(shí)各種操作都要消耗token。
網(wǎng)上有一個(gè)很有趣的梗:“用自己的腦子思考不會消耗token。”
![]()
那么token究竟是什么?OpenAI的官網(wǎng)給出了一個(gè)比較容易理解的解釋:
Tokens are the building blocks of text that OpenAI models process. They can be as short as a single character or as long as a full word, depending on the language and context.
![]()
簡單來講,token就是大語言模型處理文本的最小單位。我們可以把大語言模型想象成一個(gè)正在閱讀的人,但這個(gè)人不是逐字閱讀,而是把文本切成小塊,每一個(gè)這樣的小塊就是一個(gè)token。
根據(jù)語言和文本的不同,一個(gè)token可能代表一個(gè)字符,也可能代表一整個(gè)單詞。對于英語來說,一個(gè)token大約相當(dāng)于4個(gè)字符,100個(gè)token約等于75個(gè)單詞。
對于中文來說,一個(gè)token約等于1.67個(gè)中文字符。
Token應(yīng)該怎樣翻譯呢?有人把它翻譯成“令牌”,還有人翻譯成“字符量”,但以上表述給人的感覺都沒有特別貼切,無法傳達(dá)出token的本質(zhì)含義。
人民日報(bào)1月發(fā)布的一篇科普文章中,token被翻譯成“詞元”:
![]()
“詞元”可以比較準(zhǔn)確地體現(xiàn)出token所代表的文本數(shù)據(jù)內(nèi)容和類型。首先,token代表的是一個(gè)有意義的語言片段,這一語言片段不能用“字”或者“字符”來表示,用“詞”來表示剛剛好;而漢語中的“元”字可以表示“最小、基本”的含義,比如“元件”指的是構(gòu)成電子設(shè)備的最小、最基本的功能單元。“詞元”就代表著大模型處理語言的基本單位。
這個(gè)翻譯也很直觀,即使你不懂技術(shù),看到這個(gè)詞也能大致猜到它指的是語言的最小單位。
Token這個(gè)詞除了用在人工智能語境里面,它在其他專業(yè)領(lǐng)域也有出現(xiàn),我們需要學(xué)會區(qū)分。
在信息安全領(lǐng)域,token指的是“身份驗(yàn)證令牌”。用戶輸入用戶名和密碼后,服務(wù)器會生成一個(gè)加密的token返回給客戶端,后續(xù)請求只需攜帶這個(gè)token即可證明身份,無需重復(fù)輸入密碼。
我們在用網(wǎng)銀的時(shí)候,有些銀行會要求你使用“動(dòng)態(tài)口令牌”,英文對應(yīng)的說法是hardware tokens:
![]()
在加密貨幣中,token指的是區(qū)塊鏈平臺上發(fā)行的代表某種資產(chǎn)或權(quán)益的數(shù)字化憑證。比如NFT(非同質(zhì)化代幣)英文全稱是Non-Fungible Token。
另外,token還可以指“代幣,專用輔幣”,比如我們坐地鐵用的一次性小圓片對應(yīng)的說法就是subway/metro tokens:
![]()
單詞的含義雖然很多,不過都是從一個(gè)核心意思衍生出來的:能代表某物的東西。它可以代表你的身份(安全令牌),代表你的資產(chǎn)(代幣),還可以代表文本的片段(詞元)。
只要理解了這條主線,單詞在不同語境下的意思就不難理解。
來源:英文悅讀
跟著China Daily
精讀英語新聞
“無痛”學(xué)英語,每天20分鐘就夠!
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.