![]()
AI 從模型能力競爭,進入規(guī)模化推理能力競爭的新階段。隨著大模型在企業(yè)級場景中的落地,推理系統(tǒng)的性能、成本與資源利用率,正成為決定 AI 商業(yè)化成敗的關(guān)鍵因素。在這一過程中,存儲作為 AI 基礎(chǔ)設(shè)施核心支撐環(huán)節(jié),成為釋放 AI 算力、重構(gòu)推理效率結(jié)構(gòu)的核心能力。
為系統(tǒng)評估算力中心的“存力”水平、打通技術(shù)研發(fā)與產(chǎn)業(yè)應(yīng)用壁壘,在 NVIDIA、美團、三星、Solidigm 等產(chǎn)業(yè)鏈領(lǐng)軍企業(yè)支持下,ODCC 成立 AI 存儲實驗室。針對推理場景中的數(shù)據(jù)響應(yīng)瓶頸,實驗室聚焦大模型推理中的關(guān)鍵制約因素—KV Cache,啟動面向存儲軟硬件的專項協(xié)同測試工作,旨在構(gòu)建一套適配推理場景的 KV Cache 存儲解決方案及測試規(guī)范,切實推動 AI 存儲技術(shù)的標(biāo)準(zhǔn)化、規(guī)范化與規(guī)模化落地。
![]()
ODCC AI 存儲實驗 KV Cache 評測環(huán)境
焱融科技作為國內(nèi)專業(yè)的 AI 存儲廠商,其自主研發(fā)的 YRCache 推理存儲系統(tǒng)參與首批測試,并取得優(yōu)異成果。測試結(jié)果不僅驗證了 YRCache 對推理性能的顯著提升,更證明了 YRCache 可以讓中低配置 GPU 跑出接近高配置 GPU 的推理性能,優(yōu)化推理成本,重構(gòu)企業(yè) AI 推理基礎(chǔ)設(shè)施的投入產(chǎn)出比。
本次測試亮點數(shù)據(jù)
推理性能全面數(shù)量級提升
1. TTFT(首 Token 延時)降低 97%,實時響應(yīng),告別等待
2. TPOT(每個輸出 Token 生成時間)降低 97%,流暢輸出不卡頓
3. Token 吞吐量(每秒生成 token 數(shù))提升 22 倍,單 token 成本可隨之同比例降低
低配 GPU 跑出高配性能,推理成本結(jié)構(gòu)性優(yōu)化
1. YRCache 加持下,中端 GDDR GPU 各項推理性能接近高端 HBM GPU,ROI 提升 14 倍
2. 為企業(yè)提供“用更低算力預(yù)算獲得更高推理能力”的可行路徑
測試背景
隨著大語言模型(LLM)的持續(xù)演進,應(yīng)用場景不斷拓展,模型能力快速迭代,上下文長度快速增長。以 DeepSeek-R1 為代表的新一代推理模型,已支持 100K+ 的超長上下文。這在提升模型復(fù)雜任務(wù)處理能力的同時也帶來了 KVCache(Key-Value Cache,鍵值緩存) 的爆炸式增長。
KVCache 作為 Transformer 推理階段的核心數(shù)據(jù)結(jié)構(gòu),用于緩存注意力機制中間結(jié)果,是影響推理效率的關(guān)鍵變量。但隨著上下文長度增加,KVCache 占用的顯存呈線性膨脹,成為推理系統(tǒng)的主要瓶頸。如何高效管理 KVCache,已成為決定大模型推理系統(tǒng)規(guī)模化能力的關(guān)鍵。
測試目的
焱融 YRCache 推理存儲系統(tǒng)是專為大規(guī)模推理設(shè)計的 KVCache 存儲管理平臺。通過構(gòu)建 GPU 顯存、主機內(nèi)存、本地 NVMe SSD 和 YRCloudFile 高性能分布式文件存儲等多級 KV 緩存架構(gòu),YRCache 顯著擴展 KV 緩存空間,加速推理性能提升。本次測試旨在評估在基于 NVIDIA 計算和網(wǎng)絡(luò)平臺的測試環(huán)境下, YRCache 對推理性能的提升效果。
![]()
YRCache 架構(gòu)圖
測試環(huán)境
本次測試主要圍繞 PD(Prefill-Decode)一體化推理場景,基于 DeepSeek-R1 等主流大模型,對比原生 vLLM 框架與集成 YRCache 后的系統(tǒng),在不同網(wǎng)絡(luò)帶寬配置(200Gbps / 400Gbps / 800Gbps)下的性能表現(xiàn)。
測試模型:DeepSeek-R1-0528-FP4(671B 參數(shù),F(xiàn)P4 量化),支持 128K tokens 上下文。
測試框架:vLLM + YRCache (焱融客戶端),基于 RDMA/RoCEv2 協(xié)議。
測試環(huán)境:采用 NVIDIA Spectrum-X 400Gbps 以太網(wǎng)網(wǎng)絡(luò),搭配 3 臺 GPU 計算節(jié)點(節(jié)點 A/B/C)和 3 臺焱融存儲服務(wù)器,通過 Spine-Leaf 網(wǎng)絡(luò)拓撲實現(xiàn)高速互聯(lián)。
在具體 GPU 服務(wù)器配置方面,測試分別在以下兩類算力環(huán)境中進行:
中端 GDDR GPU 服務(wù)器
該類服務(wù)器顯存容量和帶寬低,主要面向成本敏感型的大規(guī)模推理部署、中等規(guī)模模型推理服務(wù)、輕量級微調(diào)、企業(yè) AI 平臺建設(shè)等。在此類環(huán)境下,系統(tǒng)對顯存容量與帶寬資源更加敏感,KV Cache 占用與跨節(jié)點通信效率直接影響整體吞吐與穩(wěn)定性。
高端 HBM GPU 服務(wù)器
該類服務(wù)器主要面向超大規(guī)模推理、高并發(fā)及長上下文推理需求,如 100K+ Tokens 長文本處理、復(fù)雜 Agent 推理與高端智算中心部署等。HBM 顯存容量和帶寬更高、單卡計算性能更強,但在大規(guī)模并發(fā)與 PD 一體負載下,仍對存算協(xié)同效率與網(wǎng)絡(luò)帶寬提出更高要求。
在不同 GPU 環(huán)境下的測試,也進一步揭示了焱融 YRCache 在不同硬件配置下的推理加速與性能提升效果。
![]()
測試環(huán)境網(wǎng)絡(luò)拓步圖
測試結(jié)果:不僅是性能指標(biāo)的飛躍
更是用戶體驗和推理成本的重塑
推理性能全面提升
![]()
極致加速:讓“長文本”推理如絲般順滑
在 ODCC 嚴(yán)格測試中,對比原生 vLLM 框架,在不同 GPU 和網(wǎng)卡配置下,YRCache 均實現(xiàn)了 TTFT、TPOT、Token 吞吐量等全維度核心指標(biāo)數(shù)量級優(yōu)化,直接轉(zhuǎn)化為用戶可感知的真實價值:
瞬時響應(yīng),即問即答,用戶交互感拉滿,留存率提升。
流式輸出行云流水,長文檔生成效率質(zhì)變。
吞吐能力升級,系統(tǒng)能夠服務(wù)更多并發(fā)用戶請求,單 token 成本也同比例降低。
不同 GPU & 網(wǎng)絡(luò)帶寬測試數(shù)據(jù):
![]()
上圖展示了在 8 卡中端 GDDR GPU 服務(wù)器環(huán)境中,batch size = 16、輸入長度 10K tokens 條件下,分別在 400Gbps 與 800Gbps 網(wǎng)絡(luò)帶寬配置下的測試數(shù)據(jù)。可以看到:
在 400Gbps 網(wǎng)絡(luò)環(huán)境下,使用 YRCache 后, TTFT 降低 95%,TPOT 降低 96%,token 吞吐量提升 17 倍。
在 800Gbps 網(wǎng)絡(luò)環(huán)境下,TTFT 降低 97%,TPOT 降低 97%,token 吞吐量提升 22 倍。
在高端 HBM GPU 服務(wù)器環(huán)境下,推理性能同樣實現(xiàn)了全面提升。
![]()
從上圖數(shù)據(jù)可以看出,在高端 HBM GPU 環(huán)境中,當(dāng) batch size 為 16、輸入長度為 10K tokens 時,集成 YRCache 后,在 200Gbps、400Gbps 與 800Gbps 三種網(wǎng)絡(luò)帶寬配置下,系統(tǒng)性能均實現(xiàn)大幅優(yōu)化:
![]()
此外,可以看到,隨著網(wǎng)絡(luò)能力的增強,推理性能的提升也進一步增強。
不同業(yè)務(wù)場景:讓“復(fù)雜任務(wù)”變“高效”
在模擬不同上下文長度場景的測試中,隨著 Token 長度從 100 增加到 100K,YRCache 實現(xiàn)了全程穩(wěn)定的性能提升,且隨著上下文的增長,YRCache 的性能增益呈放大趨勢(如下面兩張圖所示)。這為企業(yè)部署長上下文模型處理復(fù)雜長文檔分析、代碼生成、多輪交互等重負載任務(wù)提供了技術(shù)底氣,無需擔(dān)憂性能斷崖。
![]()
![]()
跨越硬件代差:YRCache 讓中低配卡性能
接近追平高配卡,推理成本革命性優(yōu)化
如果說性能提升是意想之中的效果,那么跨越硬件代差、實現(xiàn)結(jié)構(gòu)性成本優(yōu)化,則是在價格波動與供應(yīng)緊張的現(xiàn)實背景下,YRCache 為企業(yè)提供的更具戰(zhàn)略意義的價值支撐。
本次測試結(jié)果充分體現(xiàn)了 YRCache 能夠給用戶帶來的核心商業(yè)價值:在 YRCache 的加持下,配置較低的中端 GDDR GPU 服務(wù)器,其綜合推理性能指標(biāo)接近高端 HBM GPU 服務(wù)器。
![]()
![]()
從上圖中的數(shù)據(jù)可以看到,在未使用 YRCache 時,中端 GDDR GPU 相較于高端 HBM GPU 存在明顯的性能差距:
TTFT:19051ms vs 6992ms,比 高端 HBM GPU 慢了 173%。
TPOT:1637ms vs 448ms,比 高端 HBM GPU 慢了 265%。
Throughput:4341 vs 14269 tokens/s,吞吐量僅為 高端 HBM GPU 的 30%。
而在使用 YRCache 后,中端 GDDR GPU 和高端 HBM GPU 的性能均實現(xiàn)顯著躍升,且兩者差距急劇縮小,中端 GDDR GPU 各項性能大幅逼近 高端 HBM GPU:
![]()
在大模型推理場景中,硬件采購成本與實際產(chǎn)出吞吐量(Token 吞吐量)是衡量投資回報率(ROI)的關(guān)鍵因素。本次測試數(shù)據(jù)進一步揭示了不同配置下的 ROI 表現(xiàn)差異。
![]()
如上圖數(shù)據(jù)所示,雖然在原生狀態(tài)下,中端 GDDR GPU 的推理表現(xiàn)并不占優(yōu),但在引入 YRCache 優(yōu)化方案后,其 ROI 呈現(xiàn)出爆發(fā)式增長——在 400Gbps 和 800Gbps 網(wǎng)絡(luò)環(huán)境下,分別提升了 11 倍和 14 倍。這意味著在投入相同資金的情況下,采用“中端 GDDR GPU 服務(wù)器 + YRCache”方案能夠帶來遠超高端 HBM GPU 原生方案的產(chǎn)出效率,實現(xiàn)了成本效益的顯著優(yōu)化。
這正體現(xiàn)了 YRCache 對企業(yè) AI 成本結(jié)構(gòu)的重構(gòu)。對用戶而言,他們能夠:
擁有更多選擇,不用盲目追求頂級 GPU,通過部署 YRCache,現(xiàn)有硬件也可釋放超強推理性能
規(guī)模化部署時,TCO(總擁有成本)可實現(xiàn)顯著優(yōu)化
中小企業(yè)也能用更低門檻,實現(xiàn)高性能 AI 推理服務(wù)
對于正處于商業(yè)化關(guān)鍵期的 AI 企業(yè)而言,這不只是性能和成本的優(yōu)化,更是商業(yè)模式的重新定義——當(dāng)推理成本從"高端卡依賴"轉(zhuǎn)向"存儲技術(shù)創(chuàng)新",AI 應(yīng)用的盈虧平衡點將大幅下移,更多創(chuàng)新場景將具備經(jīng)濟可行性。
此外,焱融 YRCache 推理存儲系統(tǒng)還支持 PD 分離場景,能夠為下一代推理架構(gòu)的極致優(yōu)化提供堅實的數(shù)據(jù)流轉(zhuǎn)基礎(chǔ)。
此次參與 ODCC AI 存儲實驗室首批 KVCache 場景測試的結(jié)果,不僅是焱融 YRCache 技術(shù)實力的有力印證,也為整個 AI 推理行業(yè)指明了 “存儲驅(qū)動性能、架構(gòu)優(yōu)化成本” 的全新路徑。
除了面向大規(guī)模推理場景的 YRCache 推理存儲系統(tǒng),焱融科技目前已圍繞 AI 全流程數(shù)據(jù)需求,構(gòu)建起覆蓋數(shù)據(jù)采集、大模型訓(xùn)練、推理加速與數(shù)據(jù)治理的完整能力體系。依托 YRCloudFile 分布式文件系統(tǒng)、F9000X 全閃存儲一體機、YRCache 推理存儲系統(tǒng)以及 DataInsight 數(shù)據(jù)管理平臺,焱融打造了系統(tǒng)化的全棧 AI 存儲解決方案,實現(xiàn)從數(shù)據(jù)接入、模型運行到數(shù)據(jù)管理的全鏈路支撐。
![]()
未來,我們將繼續(xù)深耕 AI 存儲,以數(shù)量級性能提升 + 顛覆性成本優(yōu)化雙重能力,助力企業(yè)在 AI 爆發(fā)時代,以更低成本、更高效率、更優(yōu)體驗,搶占規(guī)模化落地先機。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.