![]()
(1)概念
詞元是人工智能大模型為了高效處理數據,把數據進行拆分后的“最小信息載體”,可以理解為“字/詞片段/符號”等。Token是AI理解文本的最小單位,就像人類閱讀時自動拆分的“信息顆粒”,AI不是按字而是按oken處理文本。比如“我愛中國!”,可拆分成“我”“愛”“中國”“!”4個詞元。
人工智能時代,信息傳輸的核心度量就是token(詞元),無論是文本、圖像、視頻還是激光雷達的點云數據,都能通過 Token 化處理轉化為離散化的符號或向量表示。
![]()
![]()
(2)Token 計算的核心原理
①分詞模型與編碼映射
不同的LLM(如GPT系列、Claude、Llama)會采用各自獨特的分詞模型,這就會導致針對同一文本,不同的模型可能會產生不同數量的Token。詞匯表將Token 映射到唯一的數值表示。由于LLM使用數字輸入,所以詞匯表中的每個Token都被賦予一個唯一標識符或索引。這種映射允許LLM將文本數據作為數字序列進行處理和操作,從而實現高效的計算和建模。
②主流分詞模型與編碼規則
在Token計算中,分詞模型的選擇至關重要。不同的模型采用不同的分詞算法,無論是基于字節對的分詞算法(Byte Pair Encoding,BPE)還是基于單詞的分詞算法,都會影響如何對文本進行拆分。
③計算流程拆解(以GPT-4為例)
當使用GPT-4進行Token計算時,整個流程可以拆解為幾個關鍵步驟:首先,預處理輸入文本;然后,運用分詞模型進行拆分;最后,通過編碼映射將分詞后的語義單元轉換為模型可識別的整數ID。
![]()
(3)Token的作用
![]()
①解決詞匯表爆炸問題
如果每個詞都單獨處理,模型需要記住數百萬個詞。通過將詞拆分成更小的Token,只需要幾千個Token就能組合出幾乎所有的詞。
②處理未知詞匯
當模型遇到沒見過的詞時,如果是基于Token的,它可以用已知的Token來“拼湊"理解。比如遇到"深度學習",即使沒學過這個詞也知道“深度”和“學習”這兩個Token。
③統一多語言處理
不同語言的詞匯結構差異很大,但通過Token化,可以建立統一的方式來處理各種語言。
![]()
(4)Token設計的局限性
①大小寫區分
不同大小寫的單詞被視為不同的標記。“hello”是Token (31373),“Helo°是(15496),而“HELLO”有三個Token(13909,3069,46)。這意味著模型在處理文本時,對于大小寫不同的相同單詞,會當作不同的單元來處理,可能會增加模型的學習負擔和計算量。
②數字分塊不一致
數值“380°在GPT中標記為單個“380” Token。但是“381”表示為兩個Token("38”,“1")。“382”同樣是兩個Token,但"383"是單個Token ("383")。這種數字分塊的不一致性或許就是為什么基于GPT的模型并不總是擅長數學計算的原因之一,因為模型難以對數字形成統一、準確的理解和處理方式。
③尾隨的空格
有些Token有空格,這將導致提示詞和單詞補全的有趣行為。例如,帶有尾部空格的“once upona”被編碼為"once"、"upon"、"a"、"")。然而,"once ona time"被編碼為("once", "upon","a","time")。這說明文本中的空格在Token化過程中也會產生影響,模型對于帶有空格和不帶有空格的相同文本片段,會生成不同的Token序列,進而可能影響模型的輸出結果。
![]()
![]()
(5)Token化:Token的應用
將文本劃分為不同token的正式過程稱為tokenization(Token化)。tokenization捕獲文本的含義和語法結構,從而需要將文本分割成重要的組成部分。
tokenization是將輸入和輸出文本分割成更小的單元,由LLMAl模型處理的過程。tokenization可以幫助模型處理不同的語言、詞匯表和格式,并降低計算和內存成本,還可以通過影響token的意義和語境來影響所生成文本的質量和多樣性。根據文本的復雜性和可變性,可以使用不同的方法進行tokenization,比如基于規則的方法、統計方法或神經方法。
![]()
新聞傳播學專業公眾號
微信號 : media-power
▇ 新傳考研智庫 洞察社會脈動
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.