網易首頁 > 網易號 > 正文申請入駐

GTC2026 | 立即預約！解鎖 LLM 推理新范式

2026-03-11 18:18:30　來源: NVIDIA英偉達中國

北京舉報

分享至

云與 AI 原生技術會議圍繞大語言模型 (LLM) 訓練與推理兩大主題，其中 LLM 推理主題匯集騰訊、NVIDIA、快手、阿里云、美團等行業先鋒，分享 Hopper 架構長文本推理優化、DeepSeek 模型全棧加速、DiT 視頻推理新方案、全局 KV Cache 高效推理、Dynamo Router 協同設計等前沿實踐。從性能突破到落地案例，解鎖 LLM 推理效率提升的核心密碼，助力 AI 應用高效落地。立即觀看，獲取頭部企業的推理實操干貨！

推薦演講

基于 NVIDIA Hopper 架構的

LLM 長文本推理場景

性能優化實踐和探索

會議代碼：S81986

會議時間：3 月 17 日上午 10:00 - 10:50（北京時間）

演講嘉賓：

向乾彪 | 騰訊 AI 推理架構師

會議內容：

在騰訊混元大模型支持的各項服務中，長文本請求消耗的 GPU 計算資源占比高達 60%。隨著深度搜索 (DeepSearch) 與智能體 (Agent) 技術的興起，長文本處理已成為大模型推理服務的主要成本負擔與優化核心方向。為此，我們針對長文本場景落地實施了稀疏注意力機制、并行計算策略及鍵值緩存 (KV Cache) 優化等一系列技術方案，不僅取得了顯著的性能提升，還有效降低了線上長文本推理的部署成本。

利用 NVIDIA Dynamo Router 的

LongCat-Flash 高效推理案例研究：

面向智能體時代的模型-系統協同設計

會議代碼：S81943

會議時間：3 月 18 日上午 10:00 - 11:00（北京時間）

演講嘉賓：

錢玉磊 | 美團研發工程師

會議內容：

聚焦 LongCat-Flash 560B MoE 模型的系統級協同設計實踐，展示如何實現面向 Agent 場景的極低延時與高性價比推理。在多層次并行調度與動態算子融合的支撐下，LongCat-Flash 在單用戶 100 TPS 的高并發場景中，以每百萬輸出 token 僅 0.7 美元的成本，達成吞吐與成本的最優平衡。該架構通過結構相關的算子編排策略，充分調度 NVLink 高速互連、NIC 網絡接口卡、GPU 計算單元及內存帶寬等異構資源，構建高吞吐、低延時的推理系統。依托 NVIDIA Dynamo router 等關鍵組件，系統在生產環境中實現高可用性與動態容錯能力，穩態維持推理服務的 SLA 一致性，為智能體時代的大規模推理服務提供可落地的通用范式。

基于全局 KV Cache 存儲系統的

高效 LLM 推理加速方案

會議代碼：S82360

會議時間：3 月 18 日下午 14:00 - 14:50（北京時間）

演講嘉賓：

張順康 | NVIDIA GPU 計算專家團隊 (DevTech) 工程師

張為 | 阿里云智能集團資深技術總監

會議內容：

KV Cache 通過“以存儲換計算”的方式顯著提升了大語言模型 (LLM) 的推理效率。然而，受限于高帶寬內存 (HBM) 容量有限且成本高昂，將 KV Cache 擴展至外部高性能存儲系統已成為關鍵優化方向。圍繞與 NVIDIA 聯合開展的系統級協同優化工作，在滿足服務等級目標 (SLO) 的前提下，針對 LLM 推理中動態變化的工作負載，提出一套端到端的全局 KV Cache 解決方案。該方案涵蓋：推理引擎與遠程存儲的深度集成優化，全局 KV Cache 元數據的統一管理與配置策略，面向 KV Cache 訪問模式定制的遠程存儲架構設計。在典型 LLM 推理場景中，該方案實現了顯著性能與成本收益：Cache 命中率提升 39%，P99 延遲降低 78%，單位 token 的計算與存儲綜合成本降至原來的 24%（即降低 76%）。

GTC 2026 線上注冊參會攻略

點擊鏈接查看 GTC 2026 注冊教程，提前完成線上注冊，并將您感興趣的會議添加進日程：

GTC2026 | 一圖解鎖線上注冊參會全攻略，贏 NVIDIA 定制好禮！「鏈接」

點擊鏈接，了解云與 AI 原生技術會議詳情：云與 AI 原生技術會議 | NVIDIA GTC 2026

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.