337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

全球最強推理引擎還快2倍,斯坦福、普林斯頓破解大模型串行魔咒

0
分享至

機器之心編輯部


在大語言模型推理領域,雖然「推測解碼」(Speculative Decoding,SD)已成為加速生成的標準配置,但它依然存在一個致命弱點: drafting(草擬)和 verification(驗證)之間必須串行進行。

近日,來自斯坦福、普林斯頓大學和 Together AI 的研究團隊提出SSD 框架及其優化算法 SAGUARO,成功實現了草擬和驗證的并行化。



  • 論文鏈接:https://arxiv.org/pdf/2603.03251
  • GitHub 鏈接:https://github.com/tanishqkumar/ssd

據介紹,該算法推理速度比世界上最強大的推理引擎都快 2 倍。



「推測性推測解碼」(Speculative Speculative Decoding,簡稱 SSD),是一種新型的推測性解碼 (SD)。在傳統的 SD 中,一個小且快速的模型會先猜測大且慢的模型可能生成的下幾個 token,然后大模型通過一次前向傳播驗證這些猜測,草擬和驗證是依次進行的。

而在 SSD 中,這兩個過程是并行發生的,完全消除了運行小模型的開銷。



并行執行草擬和驗證是很棘手的,因為你無法在某事物存在之前對其進行驗證,也無法推測你不知道的前綴之外的內容。在 SSD 中,研究者預先設定驗證結果,并在獨立硬件上進行驗證的同時進行推測。這樣一來,如果其中一種驗證結果出現,推測就能立即生效。

雖然論文對算法進行了詳盡的理論描述,但在實踐中,研究者大部分時間都花在如何讓它與現代推理引擎中各種優化技術(Paged Attention、Prefix Caching、CUDAGraphs 等)協同工作上。

作者 Tanishq Kumar 表示,「真的,我花在了解 CPU/GPU 同步問題上的時間遠遠超過了我的預期」。



要使新算法達到 SOTA 水平,需要精心設計系統和算法??偟膩碚f,SSD 推動了延遲 - 吞吐量帕累托前沿的發展,其方式與普通推測解碼推進標準自回歸算法的發展非常相似。



Tanishq Kumar 稱:「我對快速推理感到興奮,因為我非常關注的一個人工智能工作負載是超長時域推理。想象一下,一個擁有大量 B200 的數據中心完全用于運行一個模型,該模型需要處理數十億個 token 來證明 P 與 NP 的區別。在這種情況下,延遲減半就意味著可以進行雙倍深度的思考!」



SSD 如何實現草擬與驗證并行?

現代 AI 對推理速度有著極高的要求。然而,標準的語言模型解碼是按順序生成單個 token,未能利用現代硬件上可用的大規模并行計算。

推測性解碼(SD)是一種為了解決這個問題而引入的技術。它使用一個快速的「草擬模型」來預測目標模型可能將生成的下幾個 token,而不是從目標模型中進行緩慢的自回歸采樣,然后通過目標模型的并行前向傳播驗證這些 token。這一驗證是按照一個算法進行的,確保生成的 token 是從目標模型的分布中采樣的。

在每次驗證中,目標模型決定接受多少個推測的 token,并采樣一個額外的獎勵 token,該 token 跟隨所有已接受的 token。盡管推測性解碼有效,但它本身仍受限于串行依賴:必須等待當前驗證完成后,才能開始下一輪推測。

那么,我們能否消除草擬和驗證之間的順序依賴呢?

研究者引入推測性推測解碼(SSD),這是一個旨在并行化草擬和驗證的統一框架。

在 SD 中,草擬模型必須等待驗證完成,才能開始推測下一輪,而在 SSD 中,草擬模型會預測最可能的驗證結果,并在驗證進行的同時,針對所有可能的結果進行并行的提前推測。如果這些預準備的結果中的任何一個發生,草擬模型可以立即將預推測的 token 發送給驗證器,從而避免草擬階段的開銷。與普通的推測性解碼一樣,SSD 也是無損的。不同之處在于,SSD 的草擬模型部署在與目標模型不同的硬件上。

優化 SSD 算法主要面臨三大挑戰。

首先,草擬模型必須準確預測驗證結果,這不僅包括接受了多少個推測的 Token,還包括采樣的獎勵 token。其次,推測器的接受率與其預測驗證結果的能力之間存在微妙的權衡,必須謹慎處理以最大化加速比。此外,任何 SSD 算法都必須具備處理預測失敗的回退策略,因為在大批處理量和高隨機性(Temperature)下,預測失敗會頻繁發生,若處理不當,即時補救的開銷將抵消異步帶來的收益。

為此,他們推出了Saguaro,這是一個優化的 SSD 算法,針對上述挑戰進行了定向優化。

  • 將預測驗證結果的問題轉化為約束優化問題,并引入了一種技術,利用最可能的草擬 logits 來預測獎勵 token,準確率最高可達 90%。
  • 識別了預測準確性與生成高質量推測之間的張力,并開發了一種能夠平衡二者的采樣算法。
  • 探討了處理預測失敗的多種策略,發現最優回退策略隨批處理大小而異。通過采用這些優化,盡管 Saguaro 在處理每個批次元素時進行了更多計算(同時解碼多種可能的結果),其表現仍比標準 SD 高出 20%。

總的來看,Saguaro 相比優化的推測性解碼實現了高達 2 倍的加速,相比自回歸生成實現了高達 5 倍的加速,并在各種批處理規模下均顯著提升了吞吐量與延遲的帕累托前沿。

不過,該領域仍有許多值得探索的方向。SSD 可以自然地與 EAGLE 技術以及token-tree推測(Token-tree speculation)相結合,但這種聯合設計及其權衡空間在很大程度上尚未被發掘。

此外,通過擴展草擬設備的數量以及推測緩存,延遲可以進一步減少,盡管回報最終會遞減。最后,在集群層面跨多個目標模型部署共享推測端點——類似于預填充-解碼分解)——是另一個自然的研究方向。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
現貨黃金日內跌超100美元

現貨黃金日內跌超100美元

界面新聞
2026-04-02 09:35:29
正部級劉昆,當選新職

正部級劉昆,當選新職

上觀新聞
2026-04-02 06:17:03
創56年紀錄!綠軍首節狂轟53+11三分 布朗20分+豪瑟6中6轟17分

創56年紀錄!綠軍首節狂轟53+11三分 布朗20分+豪瑟6中6轟17分

醉臥浮生
2026-04-02 08:31:01
大瓜,特朗普稱中國富豪有56個美國孩子!各種猜測越來越離譜了!

大瓜,特朗普稱中國富豪有56個美國孩子!各種猜測越來越離譜了!

眼光很亮
2026-04-02 06:09:52
傲慢的Nike銷售暴跌,被用戶拋棄

傲慢的Nike銷售暴跌,被用戶拋棄

爆角追蹤
2026-04-01 20:03:39
澤尻英龍華婚前協議規定每月夫妻生活不得超過5次!

澤尻英龍華婚前協議規定每月夫妻生活不得超過5次!

特約前排觀眾
2026-04-02 00:10:03
“嫁給自己”沒嫁成,先嫁給了50萬債務

“嫁給自己”沒嫁成,先嫁給了50萬債務

老端的觀點
2026-04-01 19:46:12
生涯至今從未打過季后賽!錫安回應未來:我可能被交易這就是現實

生涯至今從未打過季后賽!錫安回應未來:我可能被交易這就是現實

羅說NBA
2026-04-02 06:53:08
罕見:中國投下贊成票,俄朝等投下反對票

罕見:中國投下贊成票,俄朝等投下反對票

二大爺觀世界
2026-04-01 17:38:08
法國車手瓦倫丁:因年齡被歐美車隊淘汰,和張雪聯手拿冠軍狠打臉

法國車手瓦倫丁:因年齡被歐美車隊淘汰,和張雪聯手拿冠軍狠打臉

白面書誏
2026-04-01 16:23:50
臉都不要了!伊朗革命衛隊編造襲擊謊言,不過是自欺欺人的遮羞布

臉都不要了!伊朗革命衛隊編造襲擊謊言,不過是自欺欺人的遮羞布

老馬拉車莫少裝
2026-04-01 11:02:01
650公里高速實測:電車油車差距太殘酷,真實感受句句不騙人

650公里高速實測:電車油車差距太殘酷,真實感受句句不騙人

復轉這些年
2026-04-01 09:06:39
有線耳機被淘汰快10年突然翻紅,銷量暴漲20%,“有的上架三天被搶空”

有線耳機被淘汰快10年突然翻紅,銷量暴漲20%,“有的上架三天被搶空”

環球網資訊
2026-04-02 08:50:30
噩耗傳來!28歲川大博士遺體找到,父母搬磚供他,姐姐留言太戳心

噩耗傳來!28歲川大博士遺體找到,父母搬磚供他,姐姐留言太戳心

阿纂看事
2026-04-01 13:44:50
新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

律法刑道
2026-04-01 10:15:47
不到一個停車位大?清朝花15英鎊買下的英國土地,今天仍屬中國!

不到一個停車位大?清朝花15英鎊買下的英國土地,今天仍屬中國!

丁丁鯉史紀
2026-04-01 15:47:56
杭州市場監管部門對優思益推手立案調查

杭州市場監管部門對優思益推手立案調查

新京報
2026-04-02 11:08:59
雙方合計狂轟45三分!布朗43+7綠軍橫掃熱火 塔圖姆25+18+11

雙方合計狂轟45三分!布朗43+7綠軍橫掃熱火 塔圖姆25+18+11

醉臥浮生
2026-04-02 09:55:59
地鐵吐血女孩,銀行卡被封,網友追問舉報人是誰?銀行回應引爭議

地鐵吐血女孩,銀行卡被封,網友追問舉報人是誰?銀行回應引爭議

眼光很亮
2026-04-01 05:24:45
真敢說!39歲張雪:創業13年重慶從沒有支持過我 一個子兒都沒有

真敢說!39歲張雪:創業13年重慶從沒有支持過我 一個子兒都沒有

念洲
2026-04-01 09:39:30
2026-04-02 11:31:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12659文章數 142603關注度
往期回顧 全部

科技要聞

SpaceX秘密申報IPO,估值沖刺12萬億

頭條要聞

牛彈琴:伊朗越打越生猛了 發動規模最大的一次攻勢

頭條要聞

牛彈琴:伊朗越打越生猛了 發動規模最大的一次攻勢

體育要聞

這六個字,代表了邵佳一的新國足

娛樂要聞

張婉婷已決定離婚 找律師討論婚變事宜

財經要聞

電商售械三水光針 機構倒貨or假貨猖獗?

汽車要聞

三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

態度原創

數碼
本地
旅游
時尚
公開課

數碼要聞

蘋果2019款iPad Air 3全系已列入過時產品名單

本地新聞

從學徒到世界冠軍,為什么說張雪的底氣在重慶?

旅游要聞

安徽望江:金色花海惹人醉

女人有沒有品位看看穿搭就知道,這些造型值得借鑒,溫柔高級

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版