337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

AI視頻丨token為什么叫“詞元”

詞元詞元 一詞幾元

0
分享至

▲人工智能領域token的中文名定為“詞元”(視頻由AI生成)

3月25日,全國科學技術名詞審定委員會發布公告,將人工智能領域token的中文名定為“詞元”,面向全社會發布試用。

“詞元”(token)是人工智能時代智能設備中信息存儲、處理和交換的具有一定語義的基本符號單元,特別是在人工智能大模型中作為模型處理和交換信息的最小單位。


01

“詞元”的詞源

token一詞源于古英語tācen,意為“符號”或“標記”。在語言模型中,token是文本經過切分或字節級編碼后得到的最小離散單元。它既可能是人類語言意義上的詞串、單個詞,也可能是詞根、詞綴、子詞或單個字符。語言模型通過對token序列建模,展現出一定的智能水平。

在“詞元”這一定名中,“詞”點明其在語言場景下的根源,體現出token與表達對象語義的密切關聯;“元” 傳達出“基本單元”之意,與 “元素”等術語中的“元”保持一致的語義脈絡。

“詞元”一詞可以將“作為語言基本語義單元”這一最初本質清晰表達出來,更貼合其在人工智能中的初始角色。

02

“詞元”的變化

隨著大模型從純文本走向多模態(圖像、語音、視頻等),token的所指已經擴展。圖像被切分為“圖像塊”并映射為嵌入序列,語音片段可以被量化編碼為離散單元,這些單元在多模態模型中同樣被稱為token,主要建模手段仍為序列模型。此時“詞元”中的“詞”在這里超越了人類語言意義上的“詞”,卻能暗合術語命名中普遍存在的類比思維——將非文本模態的離散基本單元,也視作“廣義的詞”。這種用法與“詞云”(word cloud)、“詞袋”(bag of word)類似,雖由文本衍生,但已成為人工智能領域中表達更寬泛語義的通用術語。“詞元”在跨模態場景中承載了“離散基本單元”的語義,這種語義普遍存在于所有模態之中。

在中文文獻、技術文檔及學術交流中,“詞元”作為描述大模型中token的一個譯名,逐漸被學術界很多學者所認同。

token是模型將數據映射為離散符號序列的基本單位,本身并不攜帶智能,只是承載信息的載體;它與“嵌入”“注意力”“隱狀態”等術語并列時,保持了風格一致性;它符合中文“二字詞”偏好,表述簡潔,易于傳播。

03

為什么要審定名詞

科學技術名詞是科學知識傳播和交流的媒介和工具。概念明確、指稱規范的科技名詞,能夠快速有效地傳播科學知識,避免因對理解不同而發生誤解。

“詞元”的定名捕捉了其在人工智能語言模型中作為“基本離散符號單元”的本質,又可以通過類比自然延伸至多模態領域。

“詞元”作為人工智能領域token的中文名,符合單義性、科學性、簡明性、協調性等科技名詞審定原則,全國各科研、教學、生產經營及新聞出版單位可推廣使用。

全國科學技術名詞審定委員會于1985年經國務院批準成立,是由科學技術部和中國科學院共建,代表國家審定、公布科技名詞的權威性機構。同時科技部和中國科學院共同聘請了國家相關部門負責人和一百余名各學科領域著名學者、專家擔任副主任委員、常務委員和委員。

此次推薦“詞元”作為token中文名的全國計算機科學技術名詞審定委員會,是全國科學技術名詞審定委員會的學科名詞審定專委會之一。

簡而言之,“詞元”審定后,社會各界都有了統一的表述,避免了不必要的歧義和混亂,提高了效率

來源:全國科學技術名詞審定委員會

責任編輯:吳昊 侯茜 閆文藝

聲明:包含AI生成內容

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

中科院之聲 incentive-icons
中科院之聲
中國科學院官方賬號
13627文章數 53783關注度
往期回顧 全部

專題推薦

洞天福地 花海畢節 山水饋贈里的“詩與遠方

無障礙瀏覽 進入關懷版