![]()
智東西
作者 ZeR0
編輯 漠影
屬實沒想到,卡著全世界移動芯片脖子的Arm,突然發布了自研CPU!
智東西3月24日舊金山現場報道,剛剛,3500億顆芯片背后的半導體IP巨頭Arm,推出首款由Arm自主設計的數據中心CPU——Arm AGI CPU。
![]()
▲Arm CEO Rene Haas展示AGI CPU芯片
這是Arm發展35年來,首次推出對外銷售的自研芯片,也是Arm全新數據中心芯片產品線的首款產品,標志著Arm正式進軍數據中心芯片領域,將其高能效架構規模化引入AI基礎設施。
Arm AGI CPU專為AI智能體基礎設施打造,采用臺積電3nm制程工藝、雙Chiplet設計,單顆CPU集成136個Arm Neoverse V3高性能核心,配備2MB L2緩存,支持3.7GHz主頻,提供每核心6GB/s內存帶寬,內存時延低于100ns,采用96通道PCIe Gen 6接口,支持CXL 3協議,TDP達300W。
![]()
Arm將其稱作“全球最高能效的智能體CPU”,圍繞性能、規模、能效三個原則來設計。
![]()
英偉達創始人兼CEO黃仁勛的巨臉出現在大屏幕上,祝賀Arm發布第一款數據中心芯片。
![]()
Arm AGI CPU的單核、系統級芯片、刀片式服務器及機架各層級均實現行業領先的性能表現。
通過更多可用線程與更高單線程處理能力相互疊加,該芯片可實現單機架性能達到x86平臺的2倍以上,每1GW的AI數據中心算力資本支出節省高達100億美元。
![]()
它支持高密度1U服務器機箱的風冷部署方案,單機架可支持多達8160個計算核心;也支持液冷系統,單機架可實現超過45000個核心的部署規模。
![]()
Arm CEO Rene Haas分享說,按其估算,自人類誕生以來,大約共有1170億人生活在這個星球上。而Arm芯片累計出貨量已超過3500億顆,足足是有史以來人類總數的3倍,是所有非Arm架構CPU累計出貨量總和的7倍,平均每個全球家庭擁有160顆Arm芯片。
現在,Arm的核心業務包括三大塊:IP授權、CSS(計算子系統)方案,以及自主設計的芯片產品。
![]()
Arm AGI CPU現已開放訂購,已交到客戶手中,正在由客戶評估,計劃在年底前實現量產。
![]()
Arm與永擎電子、聯想、廣達電腦、Supermicro等頭部OEM廠商及ODM廠商展開合作,早期系統現已推出,永擎電子、聯想及Supermicro已開放商用系統訂購,更廣泛的商用部署預計將于今年下半年落地。
![]()
▲聯想HR650A V3 2U機架服務器,配備兩顆Arm AGI CPU
Arm還披露了后續產品規劃,AGI CPU與Arm Neoverse CSS產品路線圖將并行推進,計劃2027年發布Arm AGI CPU 2和CSS V4,未來發布Arm AGI CPU 3和CSS V5,確保所有Arm數據中心客戶在平臺架構與軟件兼容性方面實現協同發展。
![]()
在會后媒體問答環節,Rene Haas談道,研發AGI CPU只是Arm商業模式的自然延伸,市場需求嚴重未被滿足,中國可能是非常好的市場。
另據Arm云AI事業部執行副總裁Mohamed Awad分享,Arm也在認真研究NVLink等互連技術,已宣布將在未來版本的CSS中支持NVLink。
一、采用簡化架構,沒有多線程,擺脫x86 CPU的額外開銷與復雜性
Rene Haas談道,智能體的爆炸式增長催生更大的CPU需求。智能體本質上是一個工作流,大量工作涉及調度,這正是CPU所擅長的工作,是加速器做不了的。
打個比方,加速器負責生成token,就像推一輛翻斗車,需要有人去搬運那些土,CPU就是搬運土的設備。
![]()
根據Arm的估算,數據中心對每GW功耗提供的CPU算力需求將增長至當前的4倍以上,在相同功耗范圍內,以前需要3000萬CPU核心,現在需要塞入約4倍的1.2億個CPU核心。
功耗是寶貴的,所需資本也是寶貴的。試圖將如此多的額外CPU塞進一個已經被加速器和執行核心工作的CPU塞得滿滿當當的數據中心,是一道難題。
![]()
對此,Arm打造了其首款對外銷售的自研芯片——Arm AGI CPU。
為什么要做這件事?Rene Haas談道,隨著智能體AI走向主流,所有支撐其運轉的工作都依賴CPU,這顆CPU必須天生就具備在電池供電下運行的基因。
x86架構背負著執行開銷和對遺留功能的支持負擔,選擇了聚焦于模塊化、支持大量不同市場和小眾用例。而Arm專注于提升能效、降低延遲。
![]()
Arm AGI CPU從零開始設計,圍繞三個原則:性能、規模、能效。
![]()
(1)性能
高IPC(每周期指令數)一直是Arm的強項。傳統CPU有時會試圖通過提高主頻、進入Boost模式來在這一維度上競爭,但提高主頻,功耗也隨之上升,這些Boost模式無法長期持續,也無法在整顆芯片上持續。而AGI CPU能提供全時間、可持續的滿血性能。
(2)規模
Arm在核心數量上實現線性擴展,內存和IO子系統經過專門設計,與核心高度匹配。
一些傳統架構采用多線程。多線程的實質是向同一個核心丟兩個任務,但IO和帶寬并不會因此翻倍,只是把瓶頸轉移到了別處,而且CPU還必須承擔管理這種來回切換的負擔,導致性能下降,最終導致進程饑餓。
Arm反復觀察到,數據中心運營商不得不超額配置數據中心30%甚至更多,來應對這種非線性擴展的問題。
Arm以無需這樣做為傲。
![]()
▲AGI CPU與x86 CPU運行同一任務的表現對比
(3)能效
Arm對能效有著近乎偏執的專注。AGI CPU是專為目標場景打造的,沒有任何遺留架構的包袱,不浪費任何一個周期,不存在擱淺的算力,不浪費任何一瓦的功耗。
在實測中,AGI CPU可提供持續性能,沒有因超出功耗預算而導致的性能降頻,沒有內存或IO爭用。
![]()
上圖中,左邊的AGI CPU和中間的x86 CPU柱形均在SMT(同步多線程)禁用的情況下測得,僅對比了單線程核心表現。
一個常見說法是,多線程能改善性能,帶來更好的可擴展性。但如果開啟多線程,結果如圖中第三個柱形所示,性能下降、現實中每機架大量線程閑置、能效略有提升但不足以改變整體的算法取舍。
Arm云AI事業部執行副總裁Mohamed Awad解釋說,如果對內存帶寬的需求很低,SMT是合理的,因為可以共享帶寬,當一個線程在等待時,可將CPU資源讓給另一個線程。
但在智能體AI場景中,有大量線程需要同時支撐,有昂貴的加速器和昂貴的基礎設施在等待,最不希望發生的事情就是分割I/O帶寬或內存帶寬,而是希望將那些I/O和內存帶寬精確地專用給對應的進程。
“我們認為,這個最優值約為每秒4~6GB的帶寬分配給每個核心,這正是我們的設計目標。在這類場景下,不實現SMT是更合適的選擇,因此我們目前沒有采用SMT的計劃。”他談道。
二、詳解AGI CPU規格:3nm、136核、3.7GHz主頻
從運行頻率到內存及I/O架構,Arm AGI CPU每一處設計都經過專門優化,在高密度機架部署場景下,支持大規模并行、高性能的智能體AI工作負載。
AGI CPU采用臺積電3nm制程工藝,基于標準Arm Neoverse V3計算子系統,單顆CPU集成136個Arm Neoverse V3高性能核心,配備2MB L2緩存,支持高達3.7GHz的主頻。
![]()
該芯片提供每核心6GB/s內存帶寬。領先的內存帶寬使每個機架能支持更多高效執行的線程。相比之下,x86 CPU在持續高負載下會因核心爭搶資源而導致性能下降。
![]()
Arm將整個系統設計為低延遲架構,使內存訪問延遲低于100納秒。
為此,AGI CPU采用了雙Chiplet設計,每個Chiplet將所有內存和IO直接集成其上,無需擔憂復雜的NUMA域和跨硅片的多次跳轉。
在互聯方面,Arm AGI CPU采用96通道PCIe Gen 6接口,支持CXL 3協議,可連接任意加速器,同時支持內存擴展等功能。
![]()
其TDP(熱設計功耗)為300W,每線程獨立核心,可在持續負載下提供確定性性能,避免降頻與線程閑置。
三、支持風冷和液冷,單機架性能達x86系統的2倍以上
為加速產品采用,Arm推出Arm AGI CPU1OU雙節點參考服務器。該服務器采用符合OCP(開放計算項目,Open Compute Project)的DC-MHS標準規格設計。
![]()
Arm的參考服務器采用1OU雙節點設計,每臺刀片服務器中集成2顆CPU芯片,并配備獨立內存與I/O,共計272個核心。
![]()
AGI CPU支持高密度1U服務器機箱的風冷部署方案。下圖是一個標準OCP風冷機架。這些刀片服務器可在標準風冷36kW機架中滿配部署,30臺雙節點1OU刀片服務器可提供總計8160個核心。
![]()
在該配置下,Arm AGI CPU可實現單機架性能達到最新x86系統的2倍以上。
![]()
此外,Arm與Supermicro合作推出200kW液冷設計方案,可容納336顆Arm AGI CPU,提供超過45000個核心。
Arm計劃向OCP社區貢獻該參考服務器設計方案及配套固件,并進一步提供包括系統架構規范、調試框架及適用于所有Arm架構系統的診斷與驗證工具等資源。
這些貢獻將惠及整個生態系統,對所有基于Arm的平臺均有裨益。
更多細節將在即將舉辦的OCP EMEA峰會上公布。
四、與Meta聯合開發,還有多家首發合作伙伴
Meta、OpenAI高管均來到Arm Everywhere大會現場并登臺分享。
Meta作為Arm AGI CPU的早期合作伙伴與客戶,參與該CPU的聯合開發,旨在為Meta全系應用優化GW級規模基礎設施,并與Meta自研MTIA推理加速器協同運行,從而在大規模AI系統中實現更高效的編排與調度。
![]()
“這場聯姻,我個人認為是雙贏的,非常令人振奮,看到從單純的IP授權提供商,走向真正參與構建生產級、生產就緒產品的行列,”Meta基礎設施負責人Santosh Janardhan談道,“我認為最甜蜜的事情需要一些時間,而我們現在就要到了。”
他說Meta和Arm談合作,核心理由是想在每瓦內放入更多的核心,但不想在性能上有任何妥協。
現在每天有約35億人使用Meta的產品。每一次交互、每一篇帖子、每一個信息流、每一通電話,都建立在Meta后端構建的基礎設施之上,即定制數據中心、定制硬件和定制芯片。
大約兩年半前,Meta先做了市場調研,看看是否有哪款CPU能滿足規格要求,結果要么滿足了性能、功耗不滿足,要么滿足了功耗、性能不達標。
而Arm提供的可擴展性,讓Meta能夠注入更多算力,做到了優化每瓦性能、每千兆瓦性能、優化Meta全平臺性能。
雙方承諾將圍繞Arm AGI CPU的多代芯片產品展開長期深度合作。
其他首發合作伙伴包括Cerebras、Cloudflare、F5、OpenAI、Positron、Rebellions、SAP及SK電訊。
這些客戶將在智能體CPU核心應用場景中部署Arm AGI CPU,覆蓋加速器管理、控制平面處理、云與企業級API、任務與應用托管等領域。
在大會展區,SK電信旗下Rebellions展示了使用Arm AGI CPU作為頭節點,在同一臺服務器中有一批加速器的實例。
![]()
Arm展示了強大的“朋友圈”。超大規模計算服務商、云計算、芯片、內存、網絡、軟件、系統設計與制造等領域的50余家行業龍頭企業,均對Arm計算平臺向芯片領域拓展表示支持。
![]()
英偉達、谷歌、微軟、亞馬遜云科技、博通、Marvell、美光、微軟、三星、SK海力士、臺積電等企業的高管一通猛夸,認為Arm AGI CPU是整個生態系統發展的重要里程碑,將帶來新一代定制化計算能力,進一步釋放Arm生態系統的潛力,讓更多客戶能夠便捷地獲取Arm的計算能力,為所有基于Arm構建智能未來的合作伙伴創造新的重大機遇。
“我們很自豪能與Arm共同構建這個開放、可擴展、高能效的AI未來。加速計算并沒有讓CPU變得無關緊要,它讓CPU成為不可或缺的合作伙伴。Arm架構已經成為我們所有平臺的基礎。”黃仁勛說,“Arm的適應性和可定制性,真正使我們能夠將Arm整合至所有平臺之中。”
結語:云端AI業務有望成Arm最大支柱,未來劍指1萬億美元市場
“全球沒有任何一家公司的生態系統,能像我們這樣從邊緣端到云端貫通服務。”Rene Haas說。
他預測,云端AI業務可能在幾年內成為Arm最大的業務。
如今數以萬計的公司在云端運行其軟件于Arm之上,依托已向全球數據中心交付的超過12.5億個Arm Neoverse核心。這一增長仍在加速。
![]()
三十多年來,產業界基于Arm計算平臺持續創新,在數千億臺設備上實現了可擴展、高能效的計算能力。整個生態系統正尋求大規模部署Arm技術的方案。
![]()
“今天標志著Arm計算平臺邁入全新發展階段,也成為公司發展的重要里程碑。”Rene Haas談道,AI從根本上重塑了計算的構建與部署,智能體計算正加速這一變革,隨著Arm AGI CPU芯片推出,Arm將助力智能體AI基礎設施實現全球規模化部署。
在審視智能體AI發展、CPU需求增長、高能效CPU為數據中心帶來的價值后,Arm預判這在未來將代表約1000億美元的TAM。
![]()
“將我們在所有市場上積累的成果,從邊緣到云端,從毫瓦到千兆瓦,我們有機會在一個1萬億美元量級的市場中大展身手。”Rene Haas說。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.