3月27日消息,在2026中關村論壇期間,高效能AI Token生產服務商趨境科技發布全新一代 AI 推理平臺趨境 ATaaS 高效能 AI Token 生產服務平臺(Approaching.AI Token as a Service)。據悉,趨境 ATaaS 平臺依托四大自研核心技術模塊,構建覆蓋異構整合、智能調度、彈性擴容的全鏈路能力,并將算力與能源封裝為分層、面向具體應用場景定制的高效能 Token 服務,為國產算力提質增效、破解異構算力孤島、實現規模化降本增效。
具體來看,趨境 ATaaS具有四大核心技術,一是異構推理2.0,大模型計算邏輯重構技術,其深度融合 CPU+GPU、國產與非國產算力異構 PD 分離等技術,重構模型計算邏輯,并基于算子與任務特征進行智能分流:CPU 承載低計算密度任務,國產算力卡處理高密度 Prefill,大顯存顯卡承載高訪存 Decode。萬卡級智算集群整體運營成本壓降20%以上。
二是以存換算2.0,超體量 KV Cache 緩存技術,通過架構重構,將原本依賴昂貴顯存承載的 KV Cache 存儲空間擴展百倍至千倍,形成近乎無限的緩存池資源,緩存命中率最高可達90% ,直接削減90% GPU 算力開銷。
三是虛實同構,算子級 SLO 仿真,基于算子級精細仿真,推演大模型 Token 生成全鏈路的吞吐、時延與訪存表現,實現算力資源的智能預規劃與動態調優;圍繞業務 SLO 分級需求,精準切分異構算力配額并隔離資源優先級,可將萬卡級智算集群硬件綜合資源利用率最高提升數倍。
四是極致彈性,實現萬億參數大模型7秒快速拉起與動態配置變更、數百節點超大規模 EP 彈性調度,以及智能容災重構和負載均衡,形成平臺原生支持萬卡級高性能橫向擴展的關鍵能力。(定西)
