當前,人工智能產業正從模型能力競爭逐步轉向規模化應用競爭。應用形態也從單一問答擴展到多智能體協作、長鏈路推理和復合任務執行,這使得 Token 需求快速增長。與此同時,算力采購、部署和運行過程中的設備和能源成本持續攀升,導致算力投入與實際 Token 產出之間的不匹配問題日益突出。圍繞 Token 推理效率開展系統優化,已成為推動產業持續發展的關鍵環節。
基于這一背景,近日,全球領先的高效能 AI Token 生產服務商趨境科技,正式發布全新一代 AI 推理平臺 ——趨境 ATaaS 高效能 AI Token 生產服務平臺(Approaching.AI Token as a Service)。破解大額硬件投入難以轉化為優質 Token 產能、資源浪費與成本空耗突出的行業困境。
針對當前行業難題,趨境 ATaaS 平臺依托四大自研核心技術模塊,構建覆蓋異構整合、智能調度、彈性擴容的全鏈路能力,并將算力與能源封裝為分層、面向具體應用場景定制的高效能 Token 服務,為國產算力提質增效、破解異構算力孤島、實現規模化降本增效,提供標桿級中國方案。
![]()
四大產業現狀:揭秘硬件高投入≠高效 Token 產出
1、硬件負載分化:過度依賴 GPU,CPU、內存等資源閑置空耗
傳統 Token 生成鏈路重度依賴 GPU,而 CPU、大容量內存、集群 SSD 及 IB 高速互聯等昂貴資源長期利用率不足 10%,全系統硬件資源利用率不足 20%,造成智算集群規模化剛性成本巨額空耗。
2、軟硬件迭代失衡:芯片硬件快速更新,配套軟件生態適配滯后
硬件標稱算力雖持續提升,但軟件層在通信、訪存和算子融合等方面優化不足,PD/PP/CP/DP 等分布式并行策略在復雜組合下穩定性有限,最終導致超 80% 理論算力難以充分利用。
3、算力配置失準:脫離業務 SLO 精細化調度,粗放盲配引發資源冗余損耗
當前集群算力配置難以依據不同推理業務在時延、吞吐和穩定性上的差異化要求,精準匹配 CPU、GPU、內存等異構資源。統一部署和粗放配額仍較常見,導致超過 50% 的算力資源被隱形浪費。
4、架構演進失衡:開源模塊豐富,但拼接式集成難以支撐規模化生產
開源生態為大模型推理提供了豐富模塊,但在大規模集群場景下,單靠組件拼接難以解決系統級協同問題。原生架構對 KV Cache、序列長度等模型態關鍵參數感知不足,易引發負載失衡,再疊加通信阻塞和服務波動等因素,系統擴展后常面臨性能下降與運維復雜度上升,無法支持大規模高效能 Token 生產。
趨境 ATaaS,四大核心技術破局產業困境,重構 Token 生產效能曲線
趨境科技提供高效能Token的本質,是重構算力、電力與 Token 產量之間的效能曲線。ATaaS 不是簡單的資源供給平臺,而是效能放大器——用軟件撬動數倍于當前的 Token 產能。
![]()
六合:異構推理 2.0|全球首創大模型計算邏輯重構技術
深度融合 CPU+GPU、國產與非國產算力異構 PD 分離等技術,重構模型計算邏輯,并基于算子與任務特征進行智能分流:CPU 承載低計算密度任務,國產算力卡處理高密度 Prefill,大顯存顯卡承載高訪存 Decode。萬卡級智算集群整體運營成本壓降20%以上。
月餅:以存換算 2.0|全球首創超體量 KV Cache 緩存技術
通過架構重構,將原本依賴昂貴顯存承載的 KV Cache 存儲空間擴展百倍至千倍,形成近乎無限的緩存池資源,緩存命中率最高可達 90% ,直接削減 90% GPU 算力開銷。
雙儀:虛實同構|全球首創算子級 SLO 仿真
基于算子級精細仿真,推演大模型 Token 生成全鏈路的吞吐、時延與訪存表現,實現算力資源的智能預規劃與動態調優;圍繞業務 SLO 分級需求,精準切分異構算力配額并隔離資源優先級,可將萬卡級智算集群硬件綜合資源利用率最高提升數倍。
萬象:極致彈性|打通規模化量產最后壁壘
依托系統化工程能力,實現萬億參數大模型 7 秒快速拉起與動態配置變更、數百節點超大規模 EP 彈性調度,以及智能容災重構和負載均衡,形成平臺原生支持萬卡級高性能橫向擴展的關鍵能力。在落地初期,便推動某在線公司的AI業務實現千卡集群吞吐實現翻倍提升。
從“數據中心”到“Token工廠”
“趨境 ATaaS:高效能 AI Token 生產服務平臺(Approaching.AI Token as a Service)”的發布,體現了 AI 基礎設施發展重點的進一步演進。行業關注的焦點,正在從單純的算力規模競爭,轉向對 Token 生產效率的綜合衡量,其中包括 Token 響應延時(TTFT)、Token 吞吐(TPS)以及資源利用效率等關鍵指標。
這一理念與當前的行業共識一致, 當黃仁勛宣布 NVIDIA 的1萬億美元需求預測,當 Token “供不應求”成為常態,算力基礎設施正從“數據中心”演進為“Token 工廠”。
作為高效能 AI Token 生產服務商,趨境科技依托長期的團隊積累和推理優化能力,推出趨境 ATaaS 平臺的意義不僅在于拓展了推理基礎設施的技術邊界,更在于為 AI 基礎設施的建設和運營提供了新的思路和行業標準:通過提升算力調度效率、優化推理過程、增強資源協同能力,使每單位算力和能耗投入都能夠數倍轉化為更穩定、更可衡量的 Token 價值產出。
轉載來源:趨境科技
本文為量子位獲授權轉載,觀點僅為原作者所有。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.