文 | 盤古智庫
當前,市場上流行一種極度簡化的商業敘事:將中國豐富的綠電資源視為人工智能時代的“新煤礦”。其基本邏輯可以表述為:利用西部低至 0.3 元每度的電力優勢驅動大規模智算中心,通過算力芯片將電力轉化為可交易的詞元,再利用互聯網的零物流成本特征,將這些“數字產品”賣向全球。這一過程被形象地稱為“電力變算力,算力變詞元,詞元換美金”。但是,這個敘事在現實中是不是真的成立,還需要進一步探討的。
讓我們從最基礎的概念開始復盤,什么是詞元?詞元是大語言模型(LLM)處理信息的最小神經元輸入單位。在物理層面,大模型無法直接讀懂自然語言的文本流,必須通過分詞器(Tokenizer)將文本映射為離散的數字序列。每一個詞元在模型內部都對應一個高維空間中的向量(Embedding)。通俗的說,詞元不是字,也不是詞,而是模型進行矩陣運算時的“最小步長”。所以,他可以作為計算任務的計量單位,也就會被進一步的當成消耗算力的計價單位。
但是,詞元的切分,是非常“因人而異”的事情,每個模型會有自己的切分算法。處理同樣的 1000 字中文報告,有些模型可能只需要 1200 個詞元,而有些可能需要 1800 個。這種切分方式的差異,直接導致了下游計算量的基數不同。所以不同模型的詞元的“含金量”在分詞階段就已經產生了分化。
進一步看,模型處理詞元的過程是一個復雜的“自回歸”推理。當用戶輸入一個詞元序列時,模型會將其映射到多層 Transformer架構中。每一層都包含多頭注意力機制(Multi-Head Attention)和前饋神經網絡(FFN)。詞元向量都要與巨大的權重矩陣進行點積運算。在生成階段,每產生一個新的詞元,模型都要對之前所有的上下文詞元進行一次完整的前向傳播計算。
這意味著,隨著對話長度的增加,計算壓力不是線性增加的,而是呈現出明顯的資源占用波動。這種“邏輯推演”的本質決定了,詞元的產出不是流水線上的物理組裝,而是一種高強度的數學模擬。在學術界和工程界,有一個公認的近似估算:生成(或處理) 1 個 詞元所需的浮點運算次數約是2 倍的模型參數量。以一個 70B 參數的模型為例,每處理一個詞元需要硬件執行1400 億次浮點運算。一次1000個詞元的典型對話,背后是 140 萬億次的物理計算。
在 Transformer 架構中,注意力機制的計算量與上下文長度的平方成正比(雖然 2026 年已有大量線性注意力技術的應用,但資源占用依然顯著)。這意味著處理“長文本”中的 1000 個 詞元,其成本遠高于處理“短文本”中的 1000 個詞元。太復雜的原理不是本文要探討的內容,但是核心是模型對詞元的處理“辦法”,和不同任務類型,都決定了不同的計算次數要求,也決定著后期的實際消耗。
那么,詞元的成本應該怎么進行估計呢?在不考慮:第一、基建成本;第二、模型能力冗余的情況下,我們將單位詞元的基礎價格拆解為一個完整數據推導機制:
![]()
從上述推導中可以看出,詞元(Token)的實際成本是高度依賴于模型能力和硬件成本的。一個高效率的模型,不但會讓用戶覺得“更聰明”,同時也能極大的節約處理任務的時長。對于采用 MoE(混合專家模型)架構的模型,其單位詞元能耗得到了革命性的下降。因為在推理時,模型僅激活 5%-10% 的專家參數。這意味著,算法的進步直接導致了“電→詞元”轉化率的 5-10 倍提升。這種軟件側的效率提升,其影響力遠大于電價的降低。同樣的變化,還在硬件中,不考慮硬件進步對模型支撐能力的飛躍,單獨計算單位價格實際算力的提升,也將極大的降低硬件折舊成本,效果大于電費的降低。還有一個潛在的“金礦”,就是對于并行算力服務的協同管理優化,也將降低詞元的成本。
按照一些智算中心的實際運行數據顯示,全生命周期的電費成本大約占到20%左右,而隨著技術的進步,全系統PUE系數會降低,單位硬件成本升高但是算力提升更快,所以這一比例還是在逐步降低的,按照上述公式折合到詞元的成本中,電價占比會進一步降低。所以,本質上低電價的敘事是在一個占比不到五分之一的成本項上進行優化,但是如果算法架構落后或者芯片效率偏低,乃至并行優化不到位,電價優勢會被瞬間抹平。綜合來看,詞元經濟絕不是電力的直接產物,它是由模型、芯片、集群工程、以及能源稟賦共同作用下的復雜結果。甚至,電價的權重在先進模型架構中正不斷被算法優化和硬件折舊所稀釋。
詞元作為一個非標品,在商業競爭中的銷售定價邏輯應該遵循的是“效果導向定價”而非“成本加成定價”。在未來,一個“好用的”模型的詞元價格完全可能是一個邏輯混亂的模型或者難以處理復雜問題模型的價格的十倍。而這個價格差異的核心是模型自身的“智力溢價”,是對研發成本的回收和合理利潤的賺取。
但是,電價的優勢就那么不重要嗎?當然不是。現在整個人工智能的生態系統的進步速度都很快,技術的擴算也不慢。通過上文對于詞元定價的推導分析,可以看出除了電力系統的建設或者說電價的變化,其他要素都是相對的“快變量”,而電價是相對的“慢變量”。同樣的市場競爭者,如果模型研發水平差異不大,都能夠買到(或生產)水平差不多的芯片呢?從成本的角度來說,電價就會成為一個最重要的可變因素,而低電價背后的系統性優勢不是一些競爭者短期內能夠趕超的。這個應該說是算力出海的核心優勢,不過要明確的概念是,算力出海其實是“境外數據入關”,是境外數據進入中國進行“加工”之后再出國,還需要相關的政策配合。綜合來看,詞元出海的優勢還是明顯的,但是需要的整個軟件、硬件的系統性進步,是整個服務能力和政策開放程度的提升,而不是單純的強調電價方面的優勢。
(本文作者系盤古智庫高級研究員周濟、盤古智庫高級研究員牛站奎。)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.