網易首頁 > 網易號 > 正文申請入駐

NVIDIA Nemotron 3 Super發布，智能體AI吞吐量提升5倍

2026-03-12 22:18:10　來源: 至頂頭條

北京舉報

分享至

今日發布的NVIDIA Nemotron 3 Super是一個擁有1200億參數的開放模型，其中120億參數在推理時處于活躍狀態，專為大規模運行復雜的智能體AI系統而設計。

該模型現已上線，結合先進的推理能力，能夠高效且高精度地為自主智能體完成任務。

AI原生公司應用

Perplexity為用戶提供Nemotron 3 Super的搜索功能，并將其作為Computer中20個協調模型之一。CodeRabbit、Factory和Greptile等提供軟件開發智能體的公司正在將該模型與專有模型集成到他們的AI智能體中，以更低的成本實現更高的準確性。Edison Scientific和Lila Sciences等生命科學和前沿AI組織將利用該模型為其智能體提供深度文獻搜索、數據科學和分子理解能力。

企業軟件平臺部署

Amdocs、Palantir、Cadence、達索系統和西門子等行業領導者正在部署和定制該模型，以在電信、網絡安全、半導體設計和制造領域實現工作流程自動化。

解決多智能體應用的兩大瓶頸

當公司從聊天機器人轉向多智能體應用時，會遇到兩個制約因素。

首先是上下文爆炸。多智能體工作流生成的token數量比標準聊天多15倍，因為每次交互都需要重新發送完整的歷史記錄，包括工具輸出和中間推理過程。在長任務過程中，這種上下文量會增加成本，并可能導致目標偏移，即智能體失去與原始目標的一致性。

其次是思考稅。復雜的智能體必須在每一步都進行推理，但為每個子任務使用大型模型會使多智能體應用變得過于昂貴和緩慢，無法實際應用。

Nemotron 3 Super擁有100萬token的上下文窗口，允許智能體在內存中保留完整的工作流狀態，防止目標偏移。該模型在Artificial Analysis的效率和開放性排行榜中名列榜首，在同等規模模型中保持領先的準確性。

該模型還為NVIDIA AI-Q研究智能體提供支持，在DeepResearch Bench和DeepResearch Bench II排行榜上獲得第一名。這些基準測試評估AI系統在大型文檔集中進行全面、多步驟研究的能力，同時保持推理一致性。

技術架構突破

Nemotron 3 Super采用混合專家混合(MoE)架構，結合三大創新，相比前代Nemotron Super模型實現高達5倍的吞吐量提升和高達2倍的準確性改進。

混合架構：Mamba層提供4倍更高的內存和計算效率，而Transformer層驅動高級推理。

MoE技術：在其1200億參數中，推理時只有120億參數處于活躍狀態。

潛在MoE：一種新技術，通過以一個專家的成本激活四個專家專家來提高準確性，以便在推理時生成下一個token。

多token預測：同時預測多個未來詞匯，實現3倍更快的推理速度。

在NVIDIA Blackwell平臺上，該模型以NVFP4精度運行，這減少了內存需求，使推理速度比NVIDIA Hopper上的FP8快4倍，且精度無損失。

開放獲取與部署

NVIDIA在寬松許可下發布Nemotron 3 Super的開放權重。開發者可以在工作站、數據中心或云端部署和定制該模型。

該模型使用前沿推理模型生成的合成數據進行訓練。NVIDIA公布了完整的方法論，包括超過10萬億token的預訓練和后訓練數據集、15個強化學習訓練環境和評估方案。研究人員可以進一步使用NVIDIA NeMo平臺來微調模型或構建自己的模型。

實際應用場景

Nemotron 3 Super專為處理多智能體系統內的復雜子任務而設計。

軟件開發智能體可以一次將整個代碼庫加載到上下文中，實現端到端的代碼生成和調試，無需文檔分割。

在金融分析中，它可以將數千頁報告加載到內存中，消除了在長時間對話中重新推理的需要，提高了效率。

Nemotron 3 Super具有高精度的工具調用功能，確保自主智能體可靠地導航大型函數庫，防止在高風險環境（如網絡安全中的自主安全編排）中出現執行錯誤。

獲取途徑與合作伙伴

作為Nemotron 3系列的一部分，NVIDIA Nemotron 3 Super可以通過build.nvidia.com、Perplexity、OpenRouter和Hugging Face訪問。戴爾科技將該模型引入Hugging Face上的戴爾企業中心，針對戴爾AI工廠的本地部署進行了優化，推進多智能體AI工作流程。HPE也將NVIDIA Nemotron引入其智能體中心，幫助確保企業大規模采用智能體AI。

企業和開發者可以通過多個合作伙伴部署該模型：

云服務提供商：Google Cloud的Vertex AI和Oracle Cloud Infrastructure，即將通過Amazon Bedrock登陸Amazon Web Services以及Microsoft Azure。

NVIDIA云合作伙伴：Coreweave、Crusoe、Nebius和Together AI。

推理服務提供商：Baseten、CloudFlare、DeepInfra、Fireworks AI、Inference.net、Lightning AI、Modal和FriendliAI。

數據平臺和服務：Distyl、Dataiku、DataRobot、德勤、安永和塔塔咨詢服務。

該模型打包為NVIDIA NIM微服務，支持從本地系統到云端的部署。

Q&A

Q1：NVIDIA Nemotron 3 Super相比前代模型有什么改進？

A：NVIDIA Nemotron 3 Super采用混合專家混合架構，結合三大技術創新，相比前代Nemotron Super模型實現高達5倍的吞吐量提升和高達2倍的準確性改進。它擁有100萬token的上下文窗口，能防止智能體在長任務中出現目標偏移。

Q2：多智能體應用面臨哪些主要挑戰？

A：主要面臨兩個制約因素：一是上下文爆炸，多智能體工作流生成的token數量比標準聊天多15倍；二是思考稅，復雜智能體必須在每一步都進行推理，使用大型模型處理每個子任務會讓應用變得過于昂貴和緩慢。

Q3：如何獲取和部署NVIDIA Nemotron 3 Super？

A：該模型可通過build.nvidia.com、Perplexity、OpenRouter和Hugging Face等平臺訪問。支持通過Google Cloud、Oracle云、Amazon Bedrock等云服務商部署，也可通過NVIDIA NIM微服務在本地系統到云端之間靈活部署。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.