ODCC聯(lián)合NVIDIA、焱融等首發(fā)KVCache評測結(jié)果｜焱融AI存儲實現(xiàn)推理提速降本雙突破

2026-03-09 16:26:02　來源: InfoQ

北京舉報

分享至

AI 從模型能力競爭，進入規(guī)模化推理能力競爭的新階段。隨著大模型在企業(yè)級場景中的落地，推理系統(tǒng)的性能、成本與資源利用率，正成為決定 AI 商業(yè)化成敗的關(guān)鍵因素。在這一過程中，存儲作為 AI 基礎(chǔ)設(shè)施核心支撐環(huán)節(jié)，成為釋放 AI 算力、重構(gòu)推理效率結(jié)構(gòu)的核心能力。

為系統(tǒng)評估算力中心的“存力”水平、打通技術(shù)研發(fā)與產(chǎn)業(yè)應(yīng)用壁壘，在 NVIDIA、美團、三星、Solidigm 等產(chǎn)業(yè)鏈領(lǐng)軍企業(yè)支持下，ODCC 成立 AI 存儲實驗室。針對推理場景中的數(shù)據(jù)響應(yīng)瓶頸，實驗室聚焦大模型推理中的關(guān)鍵制約因素—KV Cache，啟動面向存儲軟硬件的專項協(xié)同測試工作，旨在構(gòu)建一套適配推理場景的 KV Cache 存儲解決方案及測試規(guī)范，切實推動 AI 存儲技術(shù)的標(biāo)準(zhǔn)化、規(guī)范化與規(guī)模化落地。

ODCC AI 存儲實驗 KV Cache 評測環(huán)境

焱融科技作為國內(nèi)專業(yè)的 AI 存儲廠商，其自主研發(fā)的 YRCache 推理存儲系統(tǒng)參與首批測試，并取得優(yōu)異成果。測試結(jié)果不僅驗證了 YRCache 對推理性能的顯著提升，更證明了 YRCache 可以讓中低配置 GPU 跑出接近高配置 GPU 的推理性能，優(yōu)化推理成本，重構(gòu)企業(yè) AI 推理基礎(chǔ)設(shè)施的投入產(chǎn)出比。

本次測試亮點數(shù)據(jù)

推理性能全面數(shù)量級提升

1. TTFT（首 Token 延時）降低 97%，實時響應(yīng)，告別等待
2. TPOT（每個輸出 Token 生成時間）降低 97%，流暢輸出不卡頓
3. Token 吞吐量（每秒生成 token 數(shù)）提升 22 倍，單 token 成本可隨之同比例降低

低配 GPU 跑出高配性能，推理成本結(jié)構(gòu)性優(yōu)化

1. YRCache 加持下，中端 GDDR GPU 各項推理性能接近高端 HBM GPU，ROI 提升 14 倍
2. 為企業(yè)提供“用更低算力預(yù)算獲得更高推理能力”的可行路徑

測試背景

隨著大語言模型（LLM）的持續(xù)演進，應(yīng)用場景不斷拓展，模型能力快速迭代，上下文長度快速增長。以 DeepSeek-R1 為代表的新一代推理模型，已支持 100K+ 的超長上下文。這在提升模型復(fù)雜任務(wù)處理能力的同時也帶來了 KVCache（Key-Value Cache，鍵值緩存）的爆炸式增長。

KVCache 作為 Transformer 推理階段的核心數(shù)據(jù)結(jié)構(gòu)，用于緩存注意力機制中間結(jié)果，是影響推理效率的關(guān)鍵變量。但隨著上下文長度增加，KVCache 占用的顯存呈線性膨脹，成為推理系統(tǒng)的主要瓶頸。如何高效管理 KVCache，已成為決定大模型推理系統(tǒng)規(guī)模化能力的關(guān)鍵。

測試目的

焱融 YRCache 推理存儲系統(tǒng)是專為大規(guī)模推理設(shè)計的 KVCache 存儲管理平臺。通過構(gòu)建 GPU 顯存、主機內(nèi)存、本地 NVMe SSD 和 YRCloudFile 高性能分布式文件存儲等多級 KV 緩存架構(gòu)，YRCache 顯著擴展 KV 緩存空間，加速推理性能提升。本次測試旨在評估在基于 NVIDIA 計算和網(wǎng)絡(luò)平臺的測試環(huán)境下， YRCache 對推理性能的提升效果。

YRCache 架構(gòu)圖

測試環(huán)境

本次測試主要圍繞 PD（Prefill-Decode）一體化推理場景，基于 DeepSeek-R1 等主流大模型，對比原生 vLLM 框架與集成 YRCache 后的系統(tǒng)，在不同網(wǎng)絡(luò)帶寬配置（200Gbps / 400Gbps / 800Gbps）下的性能表現(xiàn)。

測試模型：DeepSeek-R1-0528-FP4（671B 參數(shù)，F(xiàn)P4 量化），支持 128K tokens 上下文。
測試框架：vLLM + YRCache (焱融客戶端)，基于 RDMA/RoCEv2 協(xié)議。
測試環(huán)境：采用 NVIDIA Spectrum-X 400Gbps 以太網(wǎng)網(wǎng)絡(luò)，搭配 3 臺 GPU 計算節(jié)點（節(jié)點 A/B/C）和 3 臺焱融存儲服務(wù)器，通過 Spine-Leaf 網(wǎng)絡(luò)拓撲實現(xiàn)高速互聯(lián)。

在具體 GPU 服務(wù)器配置方面，測試分別在以下兩類算力環(huán)境中進行：

中端 GDDR GPU 服務(wù)器

該類服務(wù)器顯存容量和帶寬低，主要面向成本敏感型的大規(guī)模推理部署、中等規(guī)模模型推理服務(wù)、輕量級微調(diào)、企業(yè) AI 平臺建設(shè)等。在此類環(huán)境下，系統(tǒng)對顯存容量與帶寬資源更加敏感，KV Cache 占用與跨節(jié)點通信效率直接影響整體吞吐與穩(wěn)定性。

高端 HBM GPU 服務(wù)器

該類服務(wù)器主要面向超大規(guī)模推理、高并發(fā)及長上下文推理需求，如 100K+ Tokens 長文本處理、復(fù)雜 Agent 推理與高端智算中心部署等。HBM 顯存容量和帶寬更高、單卡計算性能更強，但在大規(guī)模并發(fā)與 PD 一體負載下，仍對存算協(xié)同效率與網(wǎng)絡(luò)帶寬提出更高要求。

在不同 GPU 環(huán)境下的測試，也進一步揭示了焱融 YRCache 在不同硬件配置下的推理加速與性能提升效果。

測試環(huán)境網(wǎng)絡(luò)拓步圖

測試結(jié)果：不僅是性能指標(biāo)的飛躍
更是用戶體驗和推理成本的重塑

推理性能全面提升

極致加速：讓“長文本”推理如絲般順滑

在 ODCC 嚴(yán)格測試中，對比原生 vLLM 框架，在不同 GPU 和網(wǎng)卡配置下，YRCache 均實現(xiàn)了 TTFT、TPOT、Token 吞吐量等全維度核心指標(biāo)數(shù)量級優(yōu)化，直接轉(zhuǎn)化為用戶可感知的真實價值：

瞬時響應(yīng)，即問即答，用戶交互感拉滿，留存率提升。
流式輸出行云流水，長文檔生成效率質(zhì)變。
吞吐能力升級，系統(tǒng)能夠服務(wù)更多并發(fā)用戶請求，單 token 成本也同比例降低。

不同 GPU & 網(wǎng)絡(luò)帶寬測試數(shù)據(jù)：

上圖展示了在 8 卡中端 GDDR GPU 服務(wù)器環(huán)境中，batch size = 16、輸入長度 10K tokens 條件下，分別在 400Gbps 與 800Gbps 網(wǎng)絡(luò)帶寬配置下的測試數(shù)據(jù)。可以看到：

在 400Gbps 網(wǎng)絡(luò)環(huán)境下，使用 YRCache 后， TTFT 降低 95%，TPOT 降低 96%，token 吞吐量提升 17 倍。
在 800Gbps 網(wǎng)絡(luò)環(huán)境下，TTFT 降低 97%，TPOT 降低 97%，token 吞吐量提升 22 倍。

在高端 HBM GPU 服務(wù)器環(huán)境下，推理性能同樣實現(xiàn)了全面提升。

從上圖數(shù)據(jù)可以看出，在高端 HBM GPU 環(huán)境中，當(dāng) batch size 為 16、輸入長度為 10K tokens 時，集成 YRCache 后，在 200Gbps、400Gbps 與 800Gbps 三種網(wǎng)絡(luò)帶寬配置下，系統(tǒng)性能均實現(xiàn)大幅優(yōu)化：

此外，可以看到，隨著網(wǎng)絡(luò)能力的增強，推理性能的提升也進一步增強。

不同業(yè)務(wù)場景：讓“復(fù)雜任務(wù)”變“高效”

在模擬不同上下文長度場景的測試中，隨著 Token 長度從 100 增加到 100K，YRCache 實現(xiàn)了全程穩(wěn)定的性能提升，且隨著上下文的增長，YRCache 的性能增益呈放大趨勢（如下面兩張圖所示）。這為企業(yè)部署長上下文模型處理復(fù)雜長文檔分析、代碼生成、多輪交互等重負載任務(wù)提供了技術(shù)底氣，無需擔(dān)憂性能斷崖。

跨越硬件代差：YRCache 讓中低配卡性能
接近追平高配卡，推理成本革命性優(yōu)化

如果說性能提升是意想之中的效果，那么跨越硬件代差、實現(xiàn)結(jié)構(gòu)性成本優(yōu)化，則是在價格波動與供應(yīng)緊張的現(xiàn)實背景下，YRCache 為企業(yè)提供的更具戰(zhàn)略意義的價值支撐。

本次測試結(jié)果充分體現(xiàn)了 YRCache 能夠給用戶帶來的核心商業(yè)價值：在 YRCache 的加持下，配置較低的中端 GDDR GPU 服務(wù)器，其綜合推理性能指標(biāo)接近高端 HBM GPU 服務(wù)器。

從上圖中的數(shù)據(jù)可以看到，在未使用 YRCache 時，中端 GDDR GPU 相較于高端 HBM GPU 存在明顯的性能差距：

TTFT：19051ms vs 6992ms，比高端 HBM GPU 慢了 173%。
TPOT：1637ms vs 448ms，比高端 HBM GPU 慢了 265%。
Throughput：4341 vs 14269 tokens/s，吞吐量僅為高端 HBM GPU 的 30%。

而在使用 YRCache 后，中端 GDDR GPU 和高端 HBM GPU 的性能均實現(xiàn)顯著躍升，且兩者差距急劇縮小，中端 GDDR GPU 各項性能大幅逼近高端 HBM GPU：

在大模型推理場景中，硬件采購成本與實際產(chǎn)出吞吐量（Token 吞吐量）是衡量投資回報率（ROI）的關(guān)鍵因素。本次測試數(shù)據(jù)進一步揭示了不同配置下的 ROI 表現(xiàn)差異。

如上圖數(shù)據(jù)所示，雖然在原生狀態(tài)下，中端 GDDR GPU 的推理表現(xiàn)并不占優(yōu)，但在引入 YRCache 優(yōu)化方案后，其 ROI 呈現(xiàn)出爆發(fā)式增長——在 400Gbps 和 800Gbps 網(wǎng)絡(luò)環(huán)境下，分別提升了 11 倍和 14 倍。這意味著在投入相同資金的情況下，采用“中端 GDDR GPU 服務(wù)器 + YRCache”方案能夠帶來遠超高端 HBM GPU 原生方案的產(chǎn)出效率，實現(xiàn)了成本效益的顯著優(yōu)化。

這正體現(xiàn)了 YRCache 對企業(yè) AI 成本結(jié)構(gòu)的重構(gòu)。對用戶而言，他們能夠：

擁有更多選擇，不用盲目追求頂級 GPU，通過部署 YRCache，現(xiàn)有硬件也可釋放超強推理性能
規(guī)模化部署時，TCO（總擁有成本）可實現(xiàn)顯著優(yōu)化
中小企業(yè)也能用更低門檻，實現(xiàn)高性能 AI 推理服務(wù)

對于正處于商業(yè)化關(guān)鍵期的 AI 企業(yè)而言，這不只是性能和成本的優(yōu)化，更是商業(yè)模式的重新定義——當(dāng)推理成本從"高端卡依賴"轉(zhuǎn)向"存儲技術(shù)創(chuàng)新"，AI 應(yīng)用的盈虧平衡點將大幅下移，更多創(chuàng)新場景將具備經(jīng)濟可行性。

此外，焱融 YRCache 推理存儲系統(tǒng)還支持 PD 分離場景，能夠為下一代推理架構(gòu)的極致優(yōu)化提供堅實的數(shù)據(jù)流轉(zhuǎn)基礎(chǔ)。

此次參與 ODCC AI 存儲實驗室首批 KVCache 場景測試的結(jié)果，不僅是焱融 YRCache 技術(shù)實力的有力印證，也為整個 AI 推理行業(yè)指明了 “存儲驅(qū)動性能、架構(gòu)優(yōu)化成本” 的全新路徑。

除了面向大規(guī)模推理場景的 YRCache 推理存儲系統(tǒng)，焱融科技目前已圍繞 AI 全流程數(shù)據(jù)需求，構(gòu)建起覆蓋數(shù)據(jù)采集、大模型訓(xùn)練、推理加速與數(shù)據(jù)治理的完整能力體系。依托 YRCloudFile 分布式文件系統(tǒng)、F9000X 全閃存儲一體機、YRCache 推理存儲系統(tǒng)以及 DataInsight 數(shù)據(jù)管理平臺，焱融打造了系統(tǒng)化的全棧 AI 存儲解決方案，實現(xiàn)從數(shù)據(jù)接入、模型運行到數(shù)據(jù)管理的全鏈路支撐。

未來，我們將繼續(xù)深耕 AI 存儲，以數(shù)量級性能提升 + 顛覆性成本優(yōu)化雙重能力，助力企業(yè)在 AI 爆發(fā)時代，以更低成本、更高效率、更優(yōu)體驗，搶占規(guī)模化落地先機。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.