337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司

<tfoot id="iiiii"><dd id="iiiii"></dd></tfoot>

<sup id="iiiii"></sup>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

DeepSeek深夜發論文，V4前奏來了？聯手清北破GPU難題，智能體大爆炸

2026-02-27 12:03:27　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：KingHZ Aeneas

【新智元導讀】一夜之間，AI圈再次地震！這次不是DepSeek V4，而是DeepSeek直接換了推理架構。GPU空轉的問題，被他們硬生生砍掉了一半。

昨天，DeepSeek-V4要來的消息紛紛揚揚，整個AI圈都被攪動得心緒不寧，隔壁的美國同行們都快崩了。

結果就在昨晚，DeepSeek突然又雙叒叕更新了！他們聯手北大、清華的團隊，發布了針對智能體的推理框架DualPath。

這個框架的核心目標，就是緩解因大規模KV-Cache從外部存儲讀取而帶來的I/O瓶頸問題，避免算力資源因數據加載速度受限而被閑置。

鏈接：https://arxiv.org/abs/2602.21548

具體來說，此次架構升級引入了「Storage-to-Decode」的第二條加載通路，通過「雙路徑KV-Cache加載」機制，有效改善了PD分離架構下的讀取瓶頸和資源失衡問題。

可以說，這個框架直接劍指多輪AI智能體（agentic）場景下的大語言模型推理性能瓶頸——

以后，DeepSeek+OpenClaw的玩法兒不遠了！

還是熟悉的味道，DeepSeek在AI基礎設施上的提升一如既往的出色，如今邁入智能體與強化學習時代——

離線推理吞吐量最高提升1.87倍，在線場景下每秒智能體運行次數提升1.96倍。

論文一出，學界直呼：如此極致的算力管理，如此精準的調控，DeepSeek團隊是真正的經濟學大師！

網友直評：這正是贏得AI大戰的關鍵基礎設施思維。

可以說，這篇論文充分體現出DeepSeek的野心——把AI做成像水氣電一樣的基礎設施！

OpenClaw引爆智能體

DeepSeek窺天機

Claude Code\Cowork、OpenClaw等智能體的爆火，毫無爭議地點燃了Agent黃金時代的開年熱潮！

DeepSeek發現，在智能體推理任務期間，GPU存在嚴重的利用率不足問題。

一個Agent任務有多長？幾十分鐘，有時幾小時。它要寫代碼、查文檔、跑測試，再回來改代碼。上下文幾百萬token，每一步都要快。

這就帶來了一個巨大的技術債——KVCache（鍵值緩存）。

KV Cache是什么？一句話，它是AI的草稿紙。

模型每生成一個token，都會把「思考痕跡」存下來；下次繼續寫，它要翻草稿；草稿越厚，占用顯存越多。

為了讓AI記得上下文，我們必須把這些龐大的數據一直存在GPU的顯存（HBM）里。

然而，HBM供不應求，死死卡住了AI行業的脖子。

AI模型推理正演變為一場內存競賽。

因為AI對HBM需求激增，消費級內存被停產，導致在短短幾個月內主流的內存DRAM價格漲了7倍！

所以，把不需要立刻用到的記憶暫時挪到便宜的SSD或主內存里，下次要用時，再把它搬回來，這成了行業的出路。

矛盾就在這里爆發了：傳統的推理架構是串行的。

當AI需要調取舊記憶時，計算單元（Compute Unit）必須停下來，眼巴巴地等著數據通過帶寬有限的PCIe總線慢慢爬進顯存。

DeepSeek的研究指出，在多輪智能體推理（Agentic Inference）的場景下，GPU竟然有大量時間是在「空轉」等待數據！

他們發布了一些關于智能體編碼的真實世界數據，并定義了一個「緩存-計算比率」指標：該比例取決于模型類型、上下文和追加長度。

他們從代表性編碼任務中收集的軌跡顯示，平均交互輪數為157，表明LLMs傾向于進行多輪交互。

平均上下文長度為32.7k，而每次追加長度的平均值僅為429，這意味著KV緩存命中率高達98.7%。

在此場景下，緩存-計算比（定義為KV緩存加載量與所需計算量之比）對于DeepSeek-V3.2約為22GB/PFLOP。

由于每個節點上單塊存儲網卡的帶寬有限，KV緩存加載速度成為了瓶頸。

近年來，網絡帶寬和HBM容量的增長落后于GPU FLOPS的增長，I/O計算比率下降了14.4倍。

此外，較小的HBM容量限制了GPU內核可同時計算的token批次大小，阻礙了張量核心等計算單元被充分利用。

第三，現有的LLM推理系統在不同引擎類型之間表現出嚴重的存儲網絡利用率不均衡。

DeepSeek的黑科技：DualPath

DeepSeek的DualPath架構，做了一件聽起來簡單、實現起來卻極具顛覆性的事：它把「思考」和「回憶」這兩件事，從串行變成了并行。

在計算機科學中，這被稱為「計算與存儲訪問的解耦」（Decoupling Compute and Memory Access）。

讓我們換個通俗的比喻。

傳統架構是串行的：先把數據讀進顯存，讀完后，GPU才開始算。像下載電影，必須等100%，才能播放。

而DualPath做了一件事：邊下載，邊播放。

SemiAnalysis的技術團隊成員、高級工程師Jordan Nanos認為：

DeepSeek在DualPath 論文中提出了一個超酷的點子！

在目前流行的預填充-解碼分離系統中，命中token的KV緩存完全由預填充引擎直接從遠程存儲加載。這種設計將所有存儲I/O壓力集中在預填充端的網卡上，而解碼引擎端的網卡則基本處于空閑狀態。

因此，無法充分利用聚合的存儲網絡帶寬。

DeepSeek則另辟蹊徑：

與其直接從本地NVMe（或 DRAM）將所有KV加載到 GPU 上并受限于本地PCIe總線帶寬，不如先將KV暫存到解碼 GPU服務器的DRAM 中，再通過GDRDMA將KV傳輸至預填充（prefill）GPU。

DeepSeek設計了兩條獨立的流水線：

存儲路徑（Access Path）：負責瘋狂地從SSD/DRAM中搬運KV Cache數據塊。
計算路徑（Compute Path）：負責利用已經搬運好的數據塊立刻開始計算。

他們將Prefill GPU定義為PE（Prefill Engines，預填充引擎），Decode同理；而SNIC表示存儲網卡，CNIC表示計算型網卡

就像你看網劇一樣，不需要等電影下完，只要緩沖好前5秒，你就可以開始看了。

后臺的下載和前臺的播放同時進行，互不干擾。

Inter-Engine PE調度示意圖。八張GPU均屬于同一個PE引擎組，調度器會從中選擇最優的一個（或一組）進行調度

Intra-Engine Schedule示意圖。左：基于計算配額的批次選擇。右：應用計算配額前后的 GPU 時間線對比

在技術實現上，DualPath利用了Chunk-based Streaming（塊式流處理）技術，將龐大的KV Cache切分成一個個小塊。

當計算單元在處理「第N塊」記憶時，存儲單元已經悄悄地把「第N+1塊」預加載好了。

DRAM緩沖區（PE緩沖區和DE緩沖區）用于從層塊構建完整塊

具體而言，DeepSeek的GPU顯存只需容納單層的KV向量即可處理一個請求，內部是這樣進行推理的：

你發送一個請求（并緩存命中了一堆token），在推理過程中，當執行LLM的一層時：下一層的KV向量從CPU加載，以滑動窗口的方式從磁盤加載之后那一層的KV。

而且，該架構專為適配其基礎設施而設計。

他們分析網絡接口卡（NIC）與DRAM帶寬，以找出實際可行的Prefill:Decode配置范圍。

P表示預填充節點數；D表示解碼節點；g表示每個節點的GPU數量；B表示網卡的帶寬；s表示每臺機器的存儲網卡數量；M表示每臺機器的DRAM帶寬

最佳結果是所有P:D從1:7到7:2。

效果驚人：近2倍效果提升！

在標準的代理推理基準測試中，DualPath將系統的吞吐量直接提升了1.96倍。

請注意，這不是10%或20%的微調，而是近乎200%的性能暴漲。

在半導體日益逼近物理極限的今天，純軟件架構的優化能帶來這種幅度的提升，堪稱神跡。

這意味著，同樣的硬件成本，Agent的反應速度快了一倍；或者說，維持同樣的體驗，推理成本腰斬。

他們使用一個智能體軌跡數據集，對DeepSeek V3.2的660B和27B版本以及Qwen 2.5-32B進行了評估。

并在其推理框架中對比啟用與未啟用DualPath的性能，以及與SGLang（帶HiCache和Mooncake）的對比。

基本上，DualPath能帶來近2倍的性能提升；下圖灰色條代表理論上限；JCT是離線場景（即強化學習rollout）下的作業完成時間。

結果顯示，在在更大的批大小和更長的MAL下，DualPath的優勢更加明顯。圖 7 展示了不同批大小和MAL配置下的JCT。

在DS 660B上，DualPath相比Basic最高可實現1.87×的加速，并且性能接近 Oracle，表明KV-cache的I/O開銷基本被消除。

在DS 27B上，DualPath相比Basic最高提升1.78×，但由于1P1D配置下存儲帶寬受限（見圖8），其性能仍比Oracle慢 1.09–1.85×。

當追加token和生成token較短時，DualPath的優勢更加明顯。

如圖9所示，隨著追加長度增加，Basic的性能逐漸接近DualPath和Oracle。

與Basic相比，在不同追加比例下，DualPath實現了1.82–1.99×的加速。

此外，如圖8所示，DualPath在所有配置下平均實現1.64倍的加速（最高可達2.46倍）。

這進一步驗證了：在智能體場景中，存儲帶寬是主要瓶頸。

他們還調整了預填充與解碼（P:D）的比例，分別為1:2,1:1,2:1，看起來差別并不大，在這三種場景下性能大約提升了2倍。

對于在線服務來說，似乎在更大模型上性能提升更顯著：

APS表示每秒代理到達率；有SLO限制：TTFT<4秒，TPOT<50毫秒；用InferenceX的術語來說，交互性表示1/TPOT；所以50毫秒的TPOT等于每位用戶每秒20個token

團隊還進行了消融研究，以將TTFT的改進和JCT歸因于所采用的不同技術。

第一張圖是在不同APS下的堆疊柱狀圖，左側為使用DualPath的情況，右側為未使用的情況。時間按百分比分配給：

Sch.表示調度

A.表示分配

R.表示讀取KV緩存

PF.表示預填充

因此你可以看到分配所花費的時間消失了，prefill所花費的時間減少了，而（相對而言）讀取KV和調度所花費的時間增加了

第二張圖逐次加入三種技術時，對JCT的對比的總性能提升：

分層預填充（layerwise prefill）占45%
雙路徑加載貢獻了39%
而調度算法負責最后的16%

當這三種技術全部應用時，總體性能提升使得平均作業完成時間（JCT）加快了45%。

他們最后提到，其系統在由1,152塊GPU組成的集群上支持4.8萬個并發智能體，配置為48P:96D。

這是從2P:4D上的2000個智能體線性擴展而來的；還測試了44P:88D，也觀察到了同樣的線性擴展。

一個有意義的限制在于未考慮工具調用的延遲。

如果智能體在工具調用期間處于空閑狀態，理論上你可以提高APS（并發數）

但這也會導致工作集（KV緩存的大小）呈平方級增長，由于命中率降低，進一步加大了對DRAM和存儲的壓力

也讓人質疑他們早前提出的緩存-計算比率，很可能會提高GB:PFLOPs表中的GB數值（再次附上截圖）

從「算力為王」到「帶寬決勝」

DualPath的誕生，不僅僅是一個技術優化，它是一個信號。它宣告了Pre-filling（預填充）時代的終結，和Agentic Serving（智能體式服務）時代的正式確立。

在過去，我們迷信算力。仿佛只要堆足夠多的H100、B200，AI就會無限變強。

但DeepSeek用DualPath狠狠地打醒了行業：當參數量不再是瓶頸，IO（輸入輸出）才是阿喀琉斯之踵。

實際上，DeepSeek就是在構建AGI的高效「海馬體」。

通過徹底榨干PCIe 6.0/7.0的帶寬，通過極致的軟硬件協同，DeepSeek正在把AI從「在線計算」的束縛中解放出來。

如今，我們離真正的AGI，又近了一步。

參考資料：

https://arxiv.org/pdf/2602.21548

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

1000 倍效率神話，Taalas如何用 “模型即芯片” 暴打英偉達

鈦媒體APP 2026-02-24 15:35:10
0 跟貼 0
自動研究是未來！Karpathy放大招，將自我迭代智能體放進單個GPU

機器之心Pro 2026-03-09 11:39:03
0 跟貼 0

為什么是這10個詞，定義了2025年AI敘事

鈦媒體APP 2025-12-31 07:59:09
1 跟貼 1

a16z最新訪談：SaaS已死為時尚早，AI落地最大瓶頸已經不是模型智商

華爾街見聞官方 2026-03-09 22:49:07
0 跟貼 0
2026，國產AI芯片，跨越天塹：從“推理”走向“訓練”

鈦媒體APP 2026-02-25 12:59:31
0 跟貼 0

Claude考場突然「覺醒」，自行寫代碼偷答案！人類考試，管不住AI了

新智元 2026-03-09 19:50:11
1 跟貼 1

誰在決定AI手機的未來：模型、系統，還是生態？

DeepTech深科技 2026-01-13 16:16:47
0 跟貼 0
謝賽寧也玩MC？開源全新世界模型生成多人一致的游戲視角

機器之心Pro 2026-03-09 14:24:14
0 跟貼 0

MiniMax來承包你的桌面了-4

機器之心Pro 2026-01-20 20:19:42
0 跟貼 0
春晚同款，價格崩了？

中國新聞周刊 2026-03-09 07:29:05
270 跟貼 270
雷軍直呼深受其害！被黑出心理陰影，再次喊話嚴管AI偽造

雷科技 2026-03-09 23:24:27
0 跟貼 0
首個物理AI數據基座平臺“無垠”落戶浙江，專治機器人數據荒

量子位 2026-03-09 18:39:03
0 跟貼 0
周鴻祎談“龍蝦”爆火：很快就能“一鍵安裝”

大象新聞 2026-03-09 11:37:43
217 跟貼 217
打敗GPT-5.2，嵌入真實工業生產，這個大模型什么來頭？

量子位 2026-03-09 15:44:13
1 跟貼 1
行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
“AI龍蝦”霸屏，“一人公司”迎來爆發點？

每日經濟新聞 2026-03-09 23:43:12
0 跟貼 0
不上云、不租卡，如何優雅地在本地微調Qwen-VL-30B？

機器之心Pro 2026-01-13 12:57:27
32 跟貼 32
當千億參數撞上5毫米芯片

鈦媒體APP 2025-12-10 11:10:12
0 跟貼 0
性能真的不重要了嗎？Jeff Dean給出反常答案

新智元 2025-12-28 17:20:51
0 跟貼 0
三星預計存儲價格再漲100%！智能汽車也將面臨漲價？

熱點科技 2026-03-07 17:08:53
13 跟貼 13
本想拍搖樹落雪美景，結果萬萬沒想到，就這一下基本告別清北了！

旅行家小豆 2026-03-07 09:08:46
0 跟貼 0
充氣模型如何騙取導彈

純白的夢j 2026-03-07 07:35:38
0 跟貼 0
微軟和英偉達聯手丟“王炸”！所有游戲玩家都能用上光追了？

雷科技 2026-03-08 13:42:27
4 跟貼 4
宇宙誕生于奇點的大爆炸，但是奇點是從哪里來的？

宇宙時空 2026-03-05 22:20:03
22 跟貼 22
大風315 | 游客稱飛3000公里在西雙版納一景區游玩，因明星錄制綜藝節目被清場；景區：具體情況需由游客回應

大風新聞 2026-03-09 17:06:09
3298 跟貼 3298
“龍蝦”引爆A股行情：AI革命前夜，資本提前下菜

鈦媒體APP 2026-03-09 19:54:07
1 跟貼 1
陶哲軒用Claude Code解題，兩度宕機，因為token不夠用

DeepTech深科技 2026-03-09 18:31:36
0 跟貼 0
汽車氛圍燈方案，都在用哪些芯片？

芯世相 2026-03-07 09:09:39
0 跟貼 0
43天寒假無休送外賣掙萬元，財務管理專業大三學生收獲人生“第一桶金”

封面新聞 2026-03-09 13:14:08
6212 跟貼 6212
伊朗媒體發布一則用玩具模型制作的視頻，講述戰爭如何結束

車馬點兵V 2026-03-08 13:42:50
0 跟貼 0
自古北大出學神？北大驚現六級700分超帥學神！網友：教我英語吧

趣筆談 2026-03-07 14:31:57
3 跟貼 3
MIT新方法讓兩顆芯片共享唯一“指紋”，重寫硬件安全規則

DeepTech深科技 2026-02-25 17:32:10
0 跟貼 0
過了正月十六，這四樣東西，該“扔”就扔！

眼底星碎 2026-03-09 09:17:38
2 跟貼 2
通過報考人數及錄取比例對比，究竟清北和舉人哪個考試難度更高？

小莜讀史 2026-03-07 20:29:44
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
智能體基礎設施是AI時代操作系統，真正的智能體要能思考、能分析，能行動

量子位 2025-12-11 03:38:22
1 跟貼 1
被問張蘭和汪小菲吵架，馬筱梅的回應堪稱教科書級別建議全文背誦

流云隨風去遠方 2026-03-09 02:19:29
8 跟貼 8
PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0
爆火！把智能體當游戲角色來玩，一個人就是一個公司

機器之心Pro 2026-02-12 18:04:44
0 跟貼 0

亞洲首個倒下的國家要出現了？曾叫囂取代中國，如今卻步日本后塵

亞洲首個倒下的國家要出現了？曾叫囂取代中國，如今卻步日本后塵

牛牛叨史

2026-03-10 01:16:25

社會治安形勢持續向好我國是世界上最安全國家之一

社會治安形勢持續向好我國是世界上最安全國家之一

中國青年報

2026-03-09 10:33:06

財政壓力的下半場：退休人員占比近四成，才是硬賬

財政壓力的下半場：退休人員占比近四成，才是硬賬

超先聲

2026-01-09 16:45:39

縣級媒體為何越難干？

吳女士

2026-02-28 14:16:14

女孩當小姐，一晚要提供4到5次上門服務，被親人點到不赴約

女孩當小姐，一晚要提供4到5次上門服務，被親人點到不赴約

情感藝術家

2026-02-26 10:48:00

人吶，讀不懂這5個"天道法則"，就不會過不好這一生

人吶，讀不懂這5個"天道法則"，就不會過不好這一生

金沛的國學筆記

2026-02-11 15:02:58

浴缸陪睡只是冰山一角，多位助理服務明星方式曝光，一個個太離譜

浴缸陪睡只是冰山一角，多位助理服務明星方式曝光，一個個太離譜

離離言幾許

2026-03-02 15:53:17

固態變壓器爆發在即，訂單暴漲700%

固態變壓器爆發在即，訂單暴漲700%

環球零碳

2026-03-09 21:36:36

伊朗導彈擊中耶路撒冷，駐有美軍基地多國傳出爆炸聲

伊朗導彈擊中耶路撒冷，駐有美軍基地多國傳出爆炸聲

界面新聞

2026-03-02 15:09:03

全明星周末結束，約翰遜到達香港，山東男籃迎三主場，爭取三連勝

全明星周末結束，約翰遜到達香港，山東男籃迎三主場，爭取三連勝

老周觀體育

2026-03-10 00:14:07

開得好好的突然竄出個電動車司機懵了

開得好好的突然竄出個電動車司機懵了

看看新聞Knews

2026-03-09 17:50:09

美軍的最強援助已到！中東各國猛然意識到：中國的3大預測全對了

美軍的最強援助已到！中東各國猛然意識到：中國的3大預測全對了

閱識

2026-03-10 02:41:41

6死7傷！鄉政府大樓被炸震驚中央，四川涼山州6.26特大爆炸案始末

6死7傷！鄉政府大樓被炸震驚中央，四川涼山州6.26特大爆炸案始末

易玄

2024-09-11 10:52:41

5000 萬截胡尤文！曼聯領跑簽下切爾西王牌，藍軍已經松口

5000 萬截胡尤文！曼聯領跑簽下切爾西王牌，藍軍已經松口

奶蓋熊本熊

2026-03-10 03:28:01

伊朗導彈車只能活4分鐘，第8天只發射15枚導彈12架無人機

伊朗導彈車只能活4分鐘，第8天只發射15枚導彈12架無人機

移光幻影

2026-03-08 17:38:18

美、布兩油持續跳水，美油逼近100美元/桶

美、布兩油持續跳水，美油逼近100美元/桶

貝殼財經

2026-03-09 15:15:10

老公強行和妻子溫存，第二天才得知妻子死亡超過24小時！

老公強行和妻子溫存，第二天才得知妻子死亡超過24小時！

深夜列車故事集

2026-03-09 10:37:22

中方的資本，已經開始不受管控了，政府必須要提高警惕！

中方的資本，已經開始不受管控了，政府必須要提高警惕！

大靜吖

2026-02-07 23:30:36

廣東很奇怪的一個城市，不吃粵菜卻偏偏愛吃辣，連粵語都不怎么說

廣東很奇怪的一個城市，不吃粵菜卻偏偏愛吃辣，連粵語都不怎么說

思思夜話

2026-03-02 17:00:38

反轉！周某某（女，32歲），被拘留

反轉！周某某（女，32歲），被拘留

南方都市報

2026-03-08 15:27:39

AI產業主平臺領航智能+時代

14679文章數 66669關注度

往期回顧全部

科技要聞

OpenClaw更新，"養蝦"再也不會犯健忘癥了

頭條要聞

媒體：美軍用極殘酷方式擊沉伊朗軍艦令世界不寒而栗

頭條要聞

媒體：美軍用極殘酷方式擊沉伊朗軍艦令世界不寒而栗

體育要聞

36連勝終結！大魔王也是可以戰勝的

娛樂要聞

薛之謙老婆懷二胎，現身產檢心情愉快

財經要聞

油價破100美元年內漲80% 全球市場劇震

汽車要聞

對標奔馳小號G級路虎小型衛士最新消息曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

手機

家居

教育

公開課

旅游要聞

楓葉小鎮奧萊落子寶山濱江！賦能國際郵輪度假區提質升級

手機要聞

消息稱某廠母系旗艦在評估1.5K+165Hz超高刷，預計為OPPO

家居要聞

獨棟獨院精致親子墅

暖棕撞色輕法奶油風
奶白柔境閑臥享時光
極簡無界靜居自安然

教育要聞

“吃不完不許睡覺”，母親強迫女兒吃零食，200塊留下終身陰影

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<sup id="iiiii"></sup>