一款全新的開放 1,200 億參數混合式 MoE (mixture?of?experts) 模型,專為 NVIDIA Blackwell 進行了優化,可解決拖慢自主智能體工作流的長時推理和上下文爆炸的成本難題。
NVIDIA Nemotron 3 Super 于近日發布,其為一款 1,200 億參數開放模型,擁有 120 億個活躍參數,旨在大規模運行復雜的代理式 AI 系統。
Nemotron 3 Super 樹立了新標準,在 Artificial Analysis 的效率和開放性排名中位居榜首,并在同等規模的模型中展現出領先的準確性。
該模型還助力 NVIDIA AI-Q 研究智能體在 DeepResearch Bench 和 DeepResearch Bench II 排行榜上取得第一名。這些基準測試旨在衡量 AI 系統在海量文檔中開展全面多步驟研究,并保持推理連貫性的能力。
![]()
- 混合架構:Nemotron 3 Super 采用了混合 MoE 架構,結合了三項主要創新,與之前的 Nemotron Super 模型相比,實現了高達 5 倍的吞吐量提升和高達 2 倍的準確率提升。
- 混合架構:Mamba 層實現 4 倍顯存與計算效率提升,Transformer 層則提供高級推理能力。
- 混合專家 (MoE):在其 1,200 億參數中,推理時僅激活 120 億參數。
- 潛在混合專家架構:這是一種新的推理技術,它以單個專家的成本來激活四個專家,從而顯著提升 token 生成的準確率。
- 多 token 預測:能夠同時預測多個未來的詞語,從而使推理速度提高 3 倍。
- 開放權重、數據和方案:NVIDIA 將 Nemotron 3 Super 的權重完全開放,并配以寬松許可協議。開發者可在工作站、數據中心或云端來進行部署和定制。
Nemotron 3 Super 基于前沿推理模型生成的合成數據訓練而成。NVIDIA 將公布完整的訓練方法,其中包括超過 10 萬億個 token 的預訓練和后訓練數據集,15 個用于強化學習的訓練環境以及評估方案。研究人員還可借助 NVIDIA NeMo 平臺對模型進行微調或構建專屬模型。
- 在代理式系統中的應用:Nemotron 3 Super 旨在處理多智能體系統中的復雜子任務。
一個軟件開發智能體可以一次性將整個代碼庫加載到上下文中,從而實現端到端的代碼生成和調試,且無需進行文檔分割。
在金融分析中,它能夠將數千頁的報告加載到顯存中,避免在長對話中重復推理,從而提高效率。
以上為摘要內容,點擊鏈接閱讀完整內容:全新 NVIDIA Nemotron 3 Super 將代理式 AI 吞吐量提升 5 倍 | NVIDIA 英偉達博客
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.