337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

DeepSeek硬核突破!DualPath破解Agent推理瓶頸,V4升級方向清晰了

0
分享至

大模型的進化正迎來關鍵拐點。

從單輪對話的聊天機器人,快速迭代為能自主規劃、調用工具、完成百輪交互的Agent智能體,而這一轉變也讓底層推理架構的核心瓶頸徹底暴露——GPU算力不再是制約性能的關鍵,KV-Cache存儲I/O帶寬成為了Agent大模型落地的最大攔路虎。


就在DeepSeek V4發布前夕,DeepSeek-AI聯合北大、清華團隊發布了重磅研究DualPath。

DualPath通過創新的雙路徑架構,讓Agentic大模型離線推理吞吐量最高提升1.87倍,在線服務吞吐量平均提升1.96倍,還在1152張GPU的千卡集群完成驗證,為下一代模型的升級打下了堅實的技術基礎。


之所以會出現如此嚴重的I/O瓶頸,核心源于Agent大模型的工作特性。


與傳統短對話不同,Agent需要在數十甚至上百輪的環境交互中累積上下文,長度可達百萬tokens,而每輪新增的有效信息僅有數百tokens,這讓KV-Cache命中率普遍超過95%。

此時,GPU的大量時間并非用于計算,而是在等待從外部SSD存儲中讀取海量的歷史KV-Cache數據。

再加上現代大模型推理普遍采用的Prefill-Decode(預填充-解碼)分離架構,進一步加劇了這一矛盾,即所有KV-Cache都只能從外部存儲加載到預填充節點,這導致預填充節點的存儲網卡帶寬被完全占滿,成為系統性能的絕對瓶頸,而解碼節點的存儲網卡卻長期處于閑置狀態,算力資源被嚴重浪費。


同時,硬件發展的失衡也讓問題雪上加霜,GPU計算力的增長速度遠超網絡帶寬和顯存容量,計算與I/O的比例嚴重失調,讓這一瓶頸愈發突出。


DualPath的核心創新,正是抓住了解碼節點帶寬閑置的關鍵痛點,重構了KV-Cache的加載架構。

在傳統的“存儲→預填充節點”加載路徑之外,它創新性地開辟了第二條“存儲→解碼節點→預填充節點”的加載通道,通過動態分配兩條路徑的數據流,把原本單一節點的I/O壓力,轉化為全局資源池化的負載分擔,充分聚合所有節點的存儲帶寬,從根源上打破了帶寬天花板。


在第一條預填充讀取路徑中,KV-Cache從持久化存儲讀入預填充節點的內存緩沖,再傳輸到GPU顯存完成計算,最后將完整的KV-Cache傳給解碼節點。

而新增的解碼讀取路徑,則讓KV-Cache先讀入解碼節點的內存緩沖,在預填充階段通過高速RDMA計算網絡,以層級流式傳輸的方式傳給預填充節點參與計算,整個過程中數據加載還能與模型計算無縫重疊,進一步提升效率。

當然,把這個看似直觀的想法,落地到亞毫秒級延遲敏感的大模型推理系統中,需要攻克兩大核心工程難題。

第一個難題是網絡流量的干擾,額外的KV-Cache傳輸極易與模型推理中的關鍵集合通信沖突,拖慢推理速度。

對此DualPath設計了以計算網卡為中心的流量管理機制,讓所有進出GPU的流量都強制通過計算網卡,再利用底層網絡的QoS控制能力,將模型推理通信分配到占99%帶寬的高優先級通道,KV-Cache傳輸則分配到低優先級通道,僅在計算網絡的空閑間隙傳輸,實現了兩者的完美隔離,既保證了推理延遲,又充分利用了閑置帶寬。

第二個難題是動態負載均衡,面對復雜多變的請求,系統需要實時決定每條請求的讀取路徑,同時兼顧網卡隊列長度和GPU負載。


DualPath為此打造了自適應請求調度器,將Token數量作為核心負載指標,把節點劃分為過載、低讀取隊列、高讀取隊列三類,優先將任務分配給未過載且讀取隊列較短的節點。

同時在節點內部,還會基于時間預估機制,將執行時間相近的請求打包成批,最大程度減少GPU同步時的計算氣泡,讓硬件利用率達到最優。


實測數據足以印證DualPath的強悍性能。

研究團隊在NVIDIA Hopper GPU集群上,基于DeepSeek-V3.2 660B、DS 27B、Qwen2.5-32B三大模型,結合真實的Agent強化學習軌跡數據集完成了全面測試。

在離線批量推理場景(如RL訓練的Rollout階段),DualPath對基線系統實現了碾壓式超越,處理DeepSeek 660B模型時吞吐量最高提升1.87倍,且無論每輪追加Token長度、生成長度如何變化,都能保持穩定的性能提升,證明其徹底消除了存儲網絡瓶頸。


在在線服務場景中,在首字延遲≤4秒的嚴格SLO約束下,DualPath能支撐的請求到達率相比基線最高提升2.25倍,還能保持極低的端到端生成延遲。


而消融實驗也證實,雙路徑加載機制和自適應調度算法,是推動性能大幅提升的核心關鍵。

更值得一提的是,DualPath還具備極強的大規模擴展性,在1152張GPU的千卡集群中,系統實現了近乎線性的性能擴展,調度器CPU占用還不到10個核心,完全滿足生產級的部署需求。


從DualPath的技術突破中,我們也能清晰看到DeepSeek V4的核心升級方向。

首先,模型與推理系統的協同優化將進一步深化,V4大概率會內置對雙路徑加載的原生支持,讓模型層的KV-Cache結構優化與系統層的路徑調度深度融合,實現更高的帶寬利用率。

其次,自適應資源配置能力會成為重點,針對不同的工作負載,系統能在線動態調整預填充/解碼節點的比例,讓資源分配更貼合實際需求,避免固定配置的效率浪費。

同時,KV-Cache的智能拆分加載也有望落地,將單個請求的KV-Cache拆分到兩條路徑并行加載,進一步挖掘I/O性能潛力。

此外,結合DeepSeek已有的稀疏注意力技術,V4還可能將模型結構優化與DualPath的系統優化結合,在降低計算量的同時減少KV-Cache數據量,形成“模型+系統”的雙輪驅動。

此次DualPath的發布,不僅為Agentic大模型的推理性能突破提供了全新的解決方案,更讓行業看到了大模型發展的新趨勢。

當模型規模接近物理極限時,底層架構的創新與模型算法的深度協同,將成為突破性能天花板的核心關鍵。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
兩種葬禮,兩種人生,張雪峰和李詠的后事安排,差距真是一目了然

兩種葬禮,兩種人生,張雪峰和李詠的后事安排,差距真是一目了然

不似少年游
2026-03-28 22:11:06
國際原子能機構:伊朗重水工廠遭嚴重損壞并停止運行

國際原子能機構:伊朗重水工廠遭嚴重損壞并停止運行

新華社
2026-03-30 06:36:03
鄭章辭去福建實達集團股份有限公司副總裁職務

鄭章辭去福建實達集團股份有限公司副總裁職務

海峽網
2026-03-28 16:45:51
3-1!法國熱身賽派全替補仍完勝世界第13,9000萬紅星斬首球+雙響

3-1!法國熱身賽派全替補仍完勝世界第13,9000萬紅星斬首球+雙響

我愛英超
2026-03-30 06:37:35
林立果的“未婚妻”到底多美?這是她42歲的一張老照片,氣質猶存

林立果的“未婚妻”到底多美?這是她42歲的一張老照片,氣質猶存

大運河時空
2026-03-03 13:35:03
場均25分15板14助,和MVP漸行漸遠!這也是你很難奪冠的主要原因

場均25分15板14助,和MVP漸行漸遠!這也是你很難奪冠的主要原因

老梁體育漫談
2026-03-30 00:16:54
連大學都沒上過的“學渣”,卻當了央視30年名嘴,如今成女性榜樣

連大學都沒上過的“學渣”,卻當了央視30年名嘴,如今成女性榜樣

珺瑤婉史
2026-03-30 00:30:03
“我媽被你逼死了!” 入戶門外拓5公分成奪命符?官司沒贏人沒了

“我媽被你逼死了!” 入戶門外拓5公分成奪命符?官司沒贏人沒了

卷史
2026-03-29 07:20:26
羅永浩楊笠事件。

羅永浩楊笠事件。

貼小君
2026-03-28 13:34:08
藍戰非自愿做接盤俠?連麥葉知秋表白當場被拒,網友:自取其辱

藍戰非自愿做接盤俠?連麥葉知秋表白當場被拒,網友:自取其辱

手工制作阿殲
2026-03-29 13:41:37
假SSD越來越真了!測速7255MB/s、容量校驗全過:大文件拷貝才露餡

假SSD越來越真了!測速7255MB/s、容量校驗全過:大文件拷貝才露餡

快科技
2026-03-29 22:50:09
14.78萬起!豐田官宣:新車正式上市

14.78萬起!豐田官宣:新車正式上市

高科技愛好者
2026-03-29 23:10:52
雷軍:和7位新su7車主聊體驗,大多數是BBA或特斯拉車主,有2位是第一代su7置換的

雷軍:和7位新su7車主聊體驗,大多數是BBA或特斯拉車主,有2位是第一代su7置換的

魯中晨報
2026-03-28 17:57:07
藏拙藏到決賽!施海榮完勝蔡斌,江蘇女排扮豬吃虎打懵上海

藏拙藏到決賽!施海榮完勝蔡斌,江蘇女排扮豬吃虎打懵上海

金毛愛女排
2026-03-30 00:00:15
最高判處死刑!“臺獨”頑固分子集體沉默,臺灣5人不敢公開表態

最高判處死刑!“臺獨”頑固分子集體沉默,臺灣5人不敢公開表態

李博世財經
2026-03-29 14:02:15
比特幣,沒人要了

比特幣,沒人要了

澳洲財經見聞
2026-03-30 03:34:14
蔡正元進牢了,菜單被扒得比判決書還細,這事真就這么耐人尋味

蔡正元進牢了,菜單被扒得比判決書還細,這事真就這么耐人尋味

觀星賞月
2026-03-29 14:24:35
同學聚會,班長讓我給遲到的鎮長讓座,下一秒,縣長向我道歉

同學聚會,班長讓我給遲到的鎮長讓座,下一秒,縣長向我道歉

農村情感故事
2026-03-23 07:31:39
山西一兒媳住院公公陪床,趁護士換藥塞紙條,護士看后直接報警

山西一兒媳住院公公陪床,趁護士換藥塞紙條,護士看后直接報警

五元講堂
2024-10-24 10:54:37
足壇一夜動態:法國贏哥倫比亞,熱刺換帥,穆帥談葡萄牙征召C羅

足壇一夜動態:法國贏哥倫比亞,熱刺換帥,穆帥談葡萄牙征召C羅

足球狗說
2026-03-30 07:54:58
2026-03-30 09:03:00
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
467文章數 69關注度
往期回顧 全部

科技要聞

中國科學院院士:全固態電池或至少再等5年

頭條要聞

第三艘航母出動數千名士兵抵達 美軍大舉增兵中東戰場

頭條要聞

第三艘航母出動數千名士兵抵達 美軍大舉增兵中東戰場

體育要聞

絕殺衛冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

汪峰定律再現!李榮浩喊話單依純侵權

財經要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態度原創

藝術
本地
房產
旅游
公開課

藝術要聞

毛主席的草案遭吐槽!退休前能否再創輝煌?

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

房產要聞

首日430組來訪,單日120組認籌!海口首個真四代,徹底爆了!

旅游要聞

渝見好“村”光|銅梁譚洪村:毓青云霧里,譚洪一壺春

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版