最高384GB顯存，英特爾銳炫多卡方案給AI部署來點猛料

2025-10-18 15:15:45　來源: 愛極物

上海舉報

分享至

前段時間Computex 2025，英特爾推出了英特爾銳炫Pro B系列GPU，包括英特爾銳炫Pro B60、銳炫Pro B50兩款產(chǎn)品，憑借著高性價比，在短時間內(nèi)就獲得了不少OEM和客戶的支持。就在這周英特爾銳炫多卡方案正是上線，覆蓋邊緣計算到數(shù)據(jù)中心，給全場景AI部署提供了更多可能性，特別最多16塊銳炫Pro B60 24GB組成的Battlematrix（戰(zhàn)斗陣列）推理工作站平臺，一舉將顯存容量提升到了384GB，做到200并發(fā)和2000 token/s。

向智能體AI與物理AI進發(fā)

自從2012年AlexNet推動卷積神經(jīng)網(wǎng)絡(luò)圖像識別，AI推動多模態(tài)圖像、視頻、聲音感知應(yīng)用已經(jīng)開始變得愈發(fā)普遍。特別是隨著算法、硬件的井噴式升級，以ChatGPT和Stable Diffusion、Sora開始出圈的生成式AI則在過去三年中蓬勃發(fā)展，極大提升了工作和學習效率。

顯然技術(shù)不會就此停歇，Token消耗的本質(zhì)就是告知AI一個最終目的，讓AI自己進行推理、規(guī)劃、調(diào)用不同模型、應(yīng)用、AI來完成任務(wù)。這是僅僅依靠感知AI、生成式AI所無法做到的，而是需要調(diào)用多種大模型共同實現(xiàn)，最終匯聚成智能體AI。

舉個簡單的例子，現(xiàn)在我們使用專業(yè)軟件進行圖片、視頻編輯，同時需要文字軟件進行文案工作，這意味著我們即需要掌握具體軟件的特效使用或者剪輯操作邏輯，也需要用辦公軟件對文本進行創(chuàng)作，雖然每個領(lǐng)域都有專門的AI提供加速，但是他們之間是不互通的。智能體AI則可以略過這些學習和經(jīng)驗成本，幫助用戶直接略過繁瑣的操作過程，直達目標。

智能體AI是一個新的開始，目前已經(jīng)有多家創(chuàng)業(yè)公司展開投入。更龐大的AI算力需求也意味著AI硬件仍然等待新一輪的指數(shù)級井噴，AI算法、硬件在當下仍然非常重要。

而智能體AI的終極方向，英特爾中國區(qū)顯卡和AI高級產(chǎn)品總監(jiān)徐金平給出的預(yù)測是物理AI，通過機器人等形式與人類物理世界產(chǎn)生互動，最終直接解決物理問題。

英特爾中國區(qū)顯卡和AI高級產(chǎn)品總監(jiān)徐金平發(fā)表演講

無論智能體AI還是物理AI，模型發(fā)展在其中已經(jīng)扮演了非常重要的作用。數(shù)年前，顛覆大家對AI認知的AlexNet其實只有6000萬個參數(shù)，而自從谷歌開創(chuàng)Transformer模型，BERT是3.4億參數(shù)，GPT-3是1000多億哥參數(shù)，Kimi K2參數(shù)更是達到了1萬億以上，同樣，沒有公開信息的Sora 2和GPT-5也必然是1萬億以上參數(shù)的模型。這時候，AI算力的重要性得以凸顯。

Battlematrix戰(zhàn)斗陣列

今年Computex2025上的英特爾銳炫Pro B60、銳炫Pro B50兩款產(chǎn)品實際上就是解決個人工作站、數(shù)據(jù)中心AI算力而生的。其中銳炫Pro B50面向工作站，提供16GB顯存、170 TOPS算力，功耗僅為70W。更高階的銳炫Pro B60則面向推理工作站，24GB顯存，197 TOPS算力，200W功耗。

銳炫Pro B60單卡運行下其實已經(jīng)表現(xiàn)出了不錯的戰(zhàn)斗力，如果對比競爭對手的RTX 2000、GeForce RTX 5060 Ti，在14B-int4模型上，銳炫Pro B60都有著不錯的戰(zhàn)斗力，甚至而在Qwen 2.5，QwQ，Phi4，Llama3上，銳炫Pro B60表現(xiàn)更為突出。

這是因為模型在進行量化的Data Type中，都需要更大的顯存容量才能流暢運行，如果GPU剛好滿足16GB的及格線，算上計算消耗，實際上還是會有性能限制。這時候24GB顯存在其中就起到了更好的作用。

只有一塊GPU是無法滿足更大規(guī)模的AI推理的。銳炫多卡方案為此而生，進而誕生出了Battlematrix（戰(zhàn)斗陣列）項目，即將服務(wù)器與GPU進行了整合，并通過各項硬件和軟件認證。比如2個銳炫Pro B60 GPU實際上可以并成一張顯卡，共享一個PCIe 5.0 x8接口，從而獲得單卡48GB顯存。按照這個擴展方式，在一個工作站中插入8張雙GPU的銳炫Pro B60，就能獲得384GB顯存，從而可以滿足100B甚至200B的FP8大語言模型。

重點是，這并不是一套硬件堆疊的設(shè)想。在過去數(shù)個月中，英特爾已經(jīng)針對服務(wù)器、Linux工作站、AI推理工作站完成了全棧驗證，幫助客戶加速部署這套全新的AI應(yīng)用方案。

深耕應(yīng)用場景

企業(yè)用戶對AI的需求五花八門，比如是否運行在公有云、私有云上，如何進行集中化AI處理，還是分散給每一臺工作站、AI PC都是問題。因此英特爾在企業(yè)部署AI分層架構(gòu)的考量中，分成了企業(yè)中央級、企業(yè)部門級/邊緣級、企業(yè)個人員工級幾個方向，這也正好與英特爾銳炫 Pro B60多應(yīng)用場景契合。比如空間受限的AI PC中，一張雙GPU的英特爾銳炫 Pro B60就能實現(xiàn)48GB顯存和用滿PCIe 5.0 x16通道，進而提升計算密度。

不僅如此，英特爾銳炫經(jīng)過了50多項專業(yè)設(shè)計類軟件性能優(yōu)化和認證，包括Linux的全棧驗證，vLLM專門優(yōu)化支持，以遠程管理等等。

同時，多卡方案還包括了同一個服務(wù)器中GPU的GPU Direct P2P（GPU Direct Peer-to-Peer）通信技術(shù)，GPU可以相互方位顯存，不必通過CPU，進而高效的利用顯存容量，完成多卡互聯(lián)。同時，服務(wù)器與服務(wù)器之間的通訊，而也準備了GDR實現(xiàn)，訪問效率同樣也獲得了很好的提升。

由于英特爾銳炫配置的靈活性，無論是個人工作站，2U服務(wù)器，甚至4U服務(wù)器。都能找到英特爾銳炫的適配方案，前面提到的16個B60 GPU聯(lián)合就是應(yīng)用在4U服務(wù)器中，從而實現(xiàn)最高200并發(fā)，2000TOPS的AI算力表現(xiàn)，已經(jīng)能夠滿足100人以上的用戶同時使用。

最后：做企業(yè)級甜點GPU

在NVIDIA與AMD的強勢拓展下，錯位競爭必然是一個不錯的市場策略，英特爾銳炫Pro B60、銳炫Pro B50正是在這樣的需求下誕生，通過更大顯存、優(yōu)秀的軟件匹配以及不錯的功耗表現(xiàn)，能夠幫助企業(yè)很好的降低TCO，方便邊緣計算、部門級AI部署，進而完成與高端AI GPU之間的錯位競爭。

憑借著銳炫Pro B60顯卡和Battlematrix項目的融合，英特爾為企業(yè)邊緣AI部署打造了一套大顯存、多卡擴展、軟件棧成熟、容器化部署的甜點方案，也進而滿足包括教、物流、智慧公園、智能工廠在內(nèi)的多種AI應(yīng)用場景，進一步幫助企業(yè)控制TCO成本，提升效率。

與消費級銳炫一樣，銳炫Pro系列在意可見的速度快速成長，特別是在市場環(huán)境快速變化的當下，可靠、高效的AI應(yīng)用方案自然也更容易受到青睞，因此我們也有更多的理由期待銳炫Pro進一步的表現(xiàn)。

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.