![]()
云與 AI 原生技術會議圍繞大語言模型 (LLM) 訓練與推理兩大主題,其中 LLM 推理主題匯集騰訊、NVIDIA、快手、阿里云、美團等行業先鋒,分享 Hopper 架構長文本推理優化、DeepSeek 模型全棧加速、DiT 視頻推理新方案、全局 KV Cache 高效推理、Dynamo Router 協同設計等前沿實踐。從性能突破到落地案例,解鎖 LLM 推理效率提升的核心密碼,助力 AI 應用高效落地。立即觀看,獲取頭部企業的推理實操干貨!
推薦演講
基于 NVIDIA Hopper 架構的
LLM 長文本推理場景
性能優化實踐和探索
會議代碼:S81986
會議時間:3 月 17 日上午 10:00 - 10:50(北京時間)
演講嘉賓:
向乾彪 | 騰訊 AI 推理架構師
會議內容:
在騰訊混元大模型支持的各項服務中,長文本請求消耗的 GPU 計算資源占比高達 60%。隨著深度搜索 (DeepSearch) 與智能體 (Agent) 技術的興起,長文本處理已成為大模型推理服務的主要成本負擔與優化核心方向。為此,我們針對長文本場景落地實施了稀疏注意力機制、并行計算策略及鍵值緩存 (KV Cache) 優化等一系列技術方案,不僅取得了顯著的性能提升,還有效降低了線上長文本推理的部署成本。
利用 NVIDIA Dynamo Router 的
LongCat-Flash 高效推理案例研究:
面向智能體時代的模型-系統協同設計
會議代碼:S81943
會議時間:3 月 18 日上午 10:00 - 11:00(北京時間)
演講嘉賓:
錢玉磊 | 美團研發工程師
會議內容:
聚焦 LongCat-Flash 560B MoE 模型的系統級協同設計實踐,展示如何實現面向 Agent 場景的極低延時與高性價比推理。在多層次并行調度與動態算子融合的支撐下,LongCat-Flash 在單用戶 100 TPS 的高并發場景中,以每百萬輸出 token 僅 0.7 美元的成本,達成吞吐與成本的最優平衡。該架構通過結構相關的算子編排策略,充分調度 NVLink 高速互連、NIC 網絡接口卡、GPU 計算單元及內存帶寬等異構資源,構建高吞吐、低延時的推理系統。依托 NVIDIA Dynamo router 等關鍵組件,系統在生產環境中實現高可用性與動態容錯能力,穩態維持推理服務的 SLA 一致性,為智能體時代的大規模推理服務提供可落地的通用范式。
基于全局 KV Cache 存儲系統的
高效 LLM 推理加速方案
會議代碼:S82360
會議時間:3 月 18 日下午 14:00 - 14:50(北京時間)
演講嘉賓:
張順康 | NVIDIA GPU 計算專家團隊 (DevTech) 工程師
張為 | 阿里云智能集團資深技術總監
會議內容:
KV Cache 通過“以存儲換計算”的方式顯著提升了大語言模型 (LLM) 的推理效率。然而,受限于高帶寬內存 (HBM) 容量有限且成本高昂,將 KV Cache 擴展至外部高性能存儲系統已成為關鍵優化方向。圍繞與 NVIDIA 聯合開展的系統級協同優化工作,在滿足服務等級目標 (SLO) 的前提下,針對 LLM 推理中動態變化的工作負載,提出一套端到端的全局 KV Cache 解決方案。該方案涵蓋:推理引擎與遠程存儲的深度集成優化,全局 KV Cache 元數據的統一管理與配置策略,面向 KV Cache 訪問模式定制的遠程存儲架構設計。在典型 LLM 推理場景中,該方案實現了顯著性能與成本收益:Cache 命中率提升 39%,P99 延遲降低 78%,單位 token 的計算與存儲綜合成本降至原來的 24%(即降低 76%)。
GTC 2026 線上注冊參會攻略
點擊鏈接查看 GTC 2026 注冊教程,提前完成線上注冊,并將您感興趣的會議添加進日程:
GTC2026 | 一圖解鎖線上注冊參會全攻略,贏 NVIDIA 定制好禮!「鏈接」
點擊鏈接,了解云與 AI 原生技術會議詳情:云與 AI 原生技術會議 | NVIDIA GTC 2026
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.