從2022年底ChatGPT橫空出世,到2023年百模大戰(zhàn),再到近三個(gè)月OpenAI推出GPT4.5、xAI發(fā)布Grok3、Anthropic推出Claude3.7 Sonnet、Meta發(fā)布Llama4,大模型迭代速度一直在加速。而國(guó)內(nèi)則迎來一場(chǎng)開源的狂飆突進(jìn),DeepSeek開源了V3和R1,阿里通義千問開源了全新推理模型QwQ-32B。在這樣的發(fā)展之下,中國(guó)生成式AI用戶達(dá)到3億,超過人口的20%還多,而在去年年底這一數(shù)字是2.49億,三個(gè)多月的時(shí)間就增長(zhǎng)了5000多萬。
對(duì)AI大模型來說,落地才是最緊迫的任務(wù)。所以,AI芯片的混戰(zhàn)下半場(chǎng),已然逐漸從訓(xùn)練端,卷到推理端。從器件形態(tài)來看,ASIC面對(duì)AI推理的效率一定更高。
昨日,谷歌最強(qiáng)AI芯片第七代TPU(張量處理單元)——Ironwood正式亮相,這款TPU芯片性能狂飆3600倍,直接叫板英偉達(dá)Blackwell B200。這或許意味著,ASIC的戰(zhàn)爭(zhēng)更進(jìn)一步了。
ASIC:和GPU相互補(bǔ)
眾所周知,ASIC作為一種定制芯片,其計(jì)算能力和效率都嚴(yán)格匹配任務(wù)算法,芯片核心數(shù)量、邏輯計(jì)算單元、控制單元比例、緩存以及芯片架構(gòu)都是精確定制,因此ASIC擁有價(jià)值的性能、體積、功耗。
但與之相對(duì)的,ASIC的開發(fā)需要很長(zhǎng)的開發(fā)周期,并且具有很大的開發(fā)風(fēng)險(xiǎn),所以英偉達(dá)GPU憑借其強(qiáng)大通用算力和軟件生態(tài)在AI時(shí)代取得勝利。
![]()
廠商對(duì)能效比和成本的追求是永無止境的,谷歌、亞馬遜、Meta、OpenAI等大型云計(jì)算和大模型廠商均加速布局定制化ASIC,ASIC正逐步發(fā)展成為英偉達(dá)GPU之外的重要新技術(shù)路線。摩根士丹利預(yù)計(jì),AI ASIC市場(chǎng)規(guī)模將從2024年的120億美元增長(zhǎng)至2027年的300億美元,復(fù)合增長(zhǎng)率達(dá)34%。
對(duì)AI訓(xùn)練來說,需要很強(qiáng)大的并行算力,而AI推理則對(duì)算力需求有所下降,同時(shí)算法也相對(duì)固定,加之目前很多企業(yè)的ASIC基本都完成研發(fā)。所以,現(xiàn)在逐漸形成英偉達(dá)GPU主導(dǎo)AI訓(xùn)練,推理階段更多廠商轉(zhuǎn)向ASIC芯片的局面。當(dāng)然,其中也有一些例外情況,比如蘋果選擇使用谷歌TPU訓(xùn)練模型。
DeepSeek的出現(xiàn)更是推動(dòng)行業(yè)關(guān)注推理上限,提升算力效率并降低成本,使競(jìng)爭(zhēng)格局更趨多元。需要強(qiáng)調(diào)的是,ASIC最終不會(huì)取代GPU,而是與其分工協(xié)作。
![]()
谷歌TPU:性能再次起飛
TPU是一種專為處理張量運(yùn)算而設(shè)計(jì)的ASIC芯片,由谷歌自研在2016年推出首款產(chǎn)品。在深度學(xué)習(xí)的世界里,張量(多維數(shù)組)是無處不在的。TPU就是為了高效處理這些張量運(yùn)算而誕生的。
昨日,谷歌正式發(fā)布旗下第七代張量處理單元(TPU)Ironwood。谷歌稱,在大規(guī)模部署的情況下,這款 AI 加速器的計(jì)算能力能達(dá)到全球最快超級(jí)計(jì)算機(jī)的24倍以上。
單芯片規(guī)格上,Ironwood顯著提升了內(nèi)存和帶寬,每塊芯片配備192GB高帶寬內(nèi)存(HBM),是去年發(fā)布的上一代TPU Trillium的六倍。每塊芯片的內(nèi)存帶寬達(dá)到7.2 terabits/s,是 Trillium的4.5倍。
此外,Ironwood擁有超模的技術(shù)規(guī)格,當(dāng)每個(gè)pod擴(kuò)展至9216塊芯片時(shí),可提供42.5 exaflops的AI算力,遠(yuǎn)超目前全球最快的超級(jí)計(jì)算機(jī)El Capitan的1.7 exaflops。每塊 Ironwood芯片的峰值計(jì)算能力可達(dá)4614TFLOPs。
![]()
目前,TPU芯片已經(jīng)成為全球第三大數(shù)據(jù)中心芯片設(shè)計(jì)廠商,據(jù)產(chǎn)業(yè)鏈相關(guān)人士透露,谷歌TPU芯片去年的生產(chǎn)量已經(jīng)達(dá)到280萬~300萬片之間。
國(guó)產(chǎn)TPU:耗時(shí)5年的全自研產(chǎn)品
國(guó)內(nèi)也有一家廠商布局TPU,它就是中昊芯英。
中昊芯英由前谷歌TPU芯片核心研發(fā)者楊龔軼凡攜一批來自于谷歌、微軟、三星等海外科技巨頭公司的AI軟硬件設(shè)計(jì)專家于2018年創(chuàng)立。致力于以自研的TPU架構(gòu)高性能AI芯片“ 剎那 ”與計(jì)算集群“ 泰則?”為核心,構(gòu)建AI大模型計(jì)算所需的、國(guó)產(chǎn)自主可控的、能夠匹配海外先進(jìn)水平的AI算力基石。當(dāng)前已與各地政府、運(yùn)營(yíng)商、企業(yè)合作建設(shè)多個(gè)超大規(guī)模智算中心。
創(chuàng)始人楊龔軼凡擁有斯坦福大學(xué)碩士及密歇根大學(xué)學(xué)士學(xué)位,持有54項(xiàng)中國(guó)專利及15項(xiàng)美國(guó)和歐洲專利,發(fā)表ASSCC/ISSCC/JSSCC頂級(jí)論文3篇。深耕硅谷高端芯片研發(fā)十余年,曾主導(dǎo)Google TPU 2/3/4芯片研發(fā)及甲骨文SPARC T8/M8等12款高性能CPU設(shè)計(jì),累計(jì)成功流片超10次。
產(chǎn)品方面,中國(guó)首枚高性能TPU架構(gòu)AI芯片“ 剎那 ”是中昊芯英歷時(shí)近5年全自研的GPTPU架構(gòu)高性能AI芯片,擁有完全自主可控的IP核、全自研指令集與計(jì)算平臺(tái)。在用于AI大模型計(jì)算場(chǎng)景時(shí),“ 剎那 ”的算力性能超越海外著名GPU產(chǎn)品近1.5倍,能耗降低30%,成功打破了國(guó)外企業(yè)在高端AI芯片領(lǐng)域的壟斷地位。
“剎那 ”實(shí)現(xiàn)可重構(gòu)多級(jí)存儲(chǔ)、存算一體設(shè)計(jì)、以及流水線式的時(shí)空映射,以強(qiáng)大的并行處理能力實(shí)現(xiàn)大模型計(jì)算速度和精度的雙重提升。同時(shí)采用Chiplet技術(shù),2.5D封裝實(shí)現(xiàn)同等制程工藝下的性能躍升。支持1024片芯片片間互聯(lián),系統(tǒng)集群性能遠(yuǎn)超傳統(tǒng)GPU數(shù)十倍,集群擴(kuò)容時(shí)性能可線性增長(zhǎng),以構(gòu)建千卡、萬卡規(guī)模超算集群。
![]()
基于“剎那”芯片構(gòu)建的“泰則” AI計(jì)算集群系統(tǒng),實(shí)現(xiàn)1024片AI芯片的高速片間互聯(lián),集群可實(shí)現(xiàn)線性擴(kuò)容,單集群最大浮點(diǎn)運(yùn)算能力達(dá)200P以上,系統(tǒng)級(jí)性能比傳統(tǒng)GPU集群提升數(shù)十倍 “泰則?”大規(guī)模AI計(jì)算集群可支撐包括超千億參數(shù)AIGC大模型運(yùn)算、高級(jí)無人駕駛模型訓(xùn)練、蛋白質(zhì)結(jié)構(gòu)精密預(yù)測(cè)、AlphaGo、 AlphaZero 等在內(nèi)的各類高強(qiáng)度Al運(yùn)算場(chǎng)景。
![]()
LPU:Groq借勢(shì)起飛
AI大模型時(shí)代,LPU異軍突起,作為一種全新的ASIC種類瘋狂被“吹捧”。
早在今年1月有消息傳出,美國(guó)推理芯片公司Groq已經(jīng)在自己的LPU芯片上實(shí)機(jī)運(yùn)行 DeepSeek,效率比最新的H100快上一個(gè)量級(jí),達(dá)到每秒24000token。
此外,Groq曾于2024年12月在沙特阿拉伯達(dá)曼構(gòu)建了中東地區(qū)最大的推理集群,該集群包括了19000個(gè)Groq LPU。
那么LPU到底是什么?
LPU本質(zhì)上是專門為處理自然語言(NLP)任務(wù)而設(shè)計(jì)的一種新型硬件處理器(ASIC芯片)。不過,LPU和其他ASIC不一樣的地方在于存儲(chǔ)。其采用同時(shí)采用存算一體設(shè)計(jì),把GPU中的HBM,換成了容量更低、但速度更快的SRAM。將高帶寬片上SRAM直接集成到芯片內(nèi)部,有效地降低了內(nèi)存的訪問延遲,還顯著提升了整體計(jì)算的吞吐量。說白了,就是ASIC+存算一體,所以比GPU快。
![]()
不過,雖然換成了SRAM,速度確實(shí)變快了,但是整體成本可能反而更高了。曾經(jīng)有人粗略計(jì)算過,按照三年時(shí)間的運(yùn)營(yíng)成本來計(jì)算, Groq LPU采購(gòu)成本會(huì)是英偉達(dá)H100的38 倍,運(yùn)營(yíng)成本達(dá)到了10倍。這么來看,其實(shí)LPU并沒有媒體們渲染地那么“神話”或者“王炸”。
![]()
雖然在通用性還有性價(jià)比LPU沒有GPU好,但是LPU的確實(shí)打?qū)嵉靥嵘擞?jì)算能力,擁有很好的能效比,也是可行路線之一。
NPU:時(shí)代的新寵
與TPU和LPU不同,NPU主要是用在邊緣AI中。大模型為AI注入新的活力之時(shí),邊緣AI的需求也隨之增加,幾大處理器IP廠商,都在擴(kuò)展基于邊緣的AI NPU,以卸載CPU的負(fù)載從而提升效率降低功耗。一些MCU廠商已在其產(chǎn)品中集成NPU內(nèi)核,其中比如NXP、TI、英飛凌、ST、ADI等都是采用自研的NPU IP內(nèi)核。市場(chǎng)上也會(huì)存在一些第三方的NPU IP廠商:
Arm Ethos NPU:在2020年初正式推出Ethos-U55,目前已經(jīng)推出三代產(chǎn)品,目前產(chǎn)品包括Ethos-U55、Ethos-U65。目前已有ALIF、Himax(奇景)、Nuvoton(新唐)、Infineon(英飛凌)推出了基于Cortex-M55+Ethos-U55組合的產(chǎn)品。
安謀科技周易NPU系列:2023年安謀發(fā)布自研“周易”X2 NPU,針對(duì)ADAS、智能座艙、平板電腦、臺(tái)式機(jī)和手機(jī)等細(xì)分應(yīng)用場(chǎng)景進(jìn)行了大量性能優(yōu)化,此外,安謀科技還有“周易”Z系列NPU。值得一提的是,安謀科技新一代“周易”NPU實(shí)現(xiàn)DeepSeek-R1端側(cè)高效部署。
Ceva:具體產(chǎn)品包括Ceva-NeuPro-Nano、Ceva-NeuPro-M、Ceva-NeuPro Studio等。
Cadence:Cadence的Tensilica Neo NPU是高效能、低功耗的神經(jīng)處理單元(NPU),專為嵌入式AI應(yīng)用設(shè)計(jì)。
Synopsys:Synopsys ARC NPX6 NPU IP 系列是業(yè)內(nèi)性能最高的神經(jīng)處理單元(NPU)IP,專為滿足AI應(yīng)用的實(shí)時(shí)計(jì)算需求而設(shè)計(jì),具備超低功耗。該系列包含ARC NPX6和NPX6FS,支持最新的復(fù)雜神經(jīng)網(wǎng)絡(luò)模型,包括生成式AI,并提供高達(dá)3500 TOPS的性能,適用于智能SoC設(shè)計(jì)。
芯原:官方表示其NPU IP的AI芯片在全球范圍內(nèi)出貨量超過了1億顆,主要應(yīng)用在物聯(lián)網(wǎng)、可穿戴、智能家居、安防監(jiān)控、服務(wù)器、汽車電子、智能手機(jī)、平板電腦等市場(chǎng)。據(jù)悉,其NPU IP已被72家客戶用在了128款A(yù)I芯片當(dāng)中。最新推出的VIP9000系列NPU IP提供了可擴(kuò)展和高性能的處理能力,適用于Transformer和卷積神經(jīng)網(wǎng)絡(luò)(CNN)。
晶心科技:AndesAIRE AnDLA I350 是一款深度學(xué)習(xí)加速器,專為邊緣和終端推理設(shè)計(jì),提供高性能和高效能的AI解決方案。
其他ASIC芯片:伺機(jī)待發(fā)
ASIC領(lǐng)域,博通和Marvell是兩位主要玩家,二者在AI定制芯片中占據(jù)了約70%的市場(chǎng)份額。
博通在AI芯片領(lǐng)域的核心優(yōu)勢(shì)在于定制化ASIC芯片和高速數(shù)據(jù)交換芯片,其解決方案廣泛應(yīng)用于數(shù)據(jù)中心、云計(jì)算、HPC(高性能計(jì)算)和5G基礎(chǔ)設(shè)施等領(lǐng)域。最新財(cái)報(bào)顯示,博通的AI相關(guān)業(yè)務(wù)收入同比激增220%,主要受AI加速器和網(wǎng)絡(luò)設(shè)備的旺盛需求推動(dòng)。博通CEO陳福陽(Hock Tan)在財(cái)報(bào)會(huì)議上透露,到2027年,其三大客戶對(duì)AI定制芯片的需求規(guī)模預(yù)計(jì)將達(dá)到600億~900億美元。
博通有兩個(gè)大合作備受關(guān)注:第一是Meta與博通已合作開發(fā)了前兩代AI訓(xùn)練加速處理器,目前雙方正加速推進(jìn)第三代MTIA芯片的研發(fā),預(yù)計(jì)2024年下半年至2025年將取得重要進(jìn)展。第二是OpenAI已委托博通開發(fā)兩代ASIC芯片項(xiàng)目,計(jì)劃于2026年投產(chǎn),將采用業(yè)界領(lǐng)先的3nm/2nm制程工藝并搭配3D SOIC先進(jìn)封裝技術(shù)。與此同時(shí),雖然蘋果目前仍在使用谷歌TPU,但其自研AI芯片項(xiàng)目已在積極推進(jìn)中。
Marvell的定制ASIC業(yè)務(wù)正成為其增長(zhǎng)的關(guān)鍵引擎。2019年,Marvell以7.4億美元收購(gòu)格芯(GlobalFoundries)旗下Avera半導(dǎo)體,正式進(jìn)軍ASIC市場(chǎng)。如今,該業(yè)務(wù)已成功吸引亞馬遜、谷歌等科技巨頭的訂單。
2024年12月,Marvell與AWS(Amazon Web Services)達(dá)成五年多代合作協(xié)議,涵蓋AI芯片定制設(shè)計(jì),進(jìn)一步深化其在云計(jì)算市場(chǎng)的布局。Marvell預(yù)測(cè),隨著AI算力需求爆發(fā),ASIC業(yè)務(wù)占比將提升至25%,并預(yù)計(jì)到2028年,數(shù)據(jù)中心ASIC市場(chǎng)規(guī)模將增長(zhǎng)至429億美元。
去年年底,AWS發(fā)布了新一代AI訓(xùn)練芯片Trainium3。這是首款采用3nm工藝節(jié)點(diǎn)制造的AWS芯片,能效提高40%、性能翻倍提升。搭載Trainium3的UltraServer性能預(yù)計(jì)將比Trn2 UltraServer高出4倍。首批基于Trainium3的實(shí)例預(yù)計(jì)將于2025年底上市。
2023年,微軟也發(fā)布了專門用于云端訓(xùn)練和推理的AI芯片(ASIC)Microsoft Azure Maia 100。Maia 100是微軟為微軟云中大語言模型訓(xùn)練和推理而設(shè)計(jì)的首款A(yù)I芯片,采用臺(tái)積電5nm工藝,晶體管數(shù)量達(dá)到1050億個(gè),因此,當(dāng)涉及到晶體管或時(shí)鐘速度時(shí),它并不屬于輕量級(jí)。同時(shí),針對(duì)AI和生成式AI進(jìn)行了優(yōu)化,支持微軟首次實(shí)現(xiàn)的低于8位數(shù)據(jù)類型(MX數(shù)據(jù)類型)。
總 結(jié)
ASIC不會(huì)完全取代GPU,但將成為推理市場(chǎng)主導(dǎo)力量,也會(huì)在訓(xùn)練領(lǐng)域有所發(fā)展。谷歌TPU、國(guó)產(chǎn)“剎那”、Groq LPU等創(chuàng)新架構(gòu),正推動(dòng)AI算力向高效、低成本方向發(fā)展。未來,隨著大模型繼續(xù)發(fā)展,ASIC一定還會(huì)有更大的發(fā)展。
參考文獻(xiàn)
[1]中國(guó)電子報(bào):https://mp.weixin.qq.com/s/1Drsaz4gfkLQC3TjvaoV6w
[2]鮮棗課堂:https://mp.weixin.qq.com/s/9i5qcCGZj1ynCkTfsA01Yg
[3]機(jī)器之心:https://mp.weixin.qq.com/s/MQRWr_i76Vrw8Z5YQaIbeA
[4]騰訊研究院:https://mp.weixin.qq.com/s/-KhpFHznaLlvbkkIUlSW_A
[5]差評(píng):https://mp.weixin.qq.com/s/I4ox6Ir5xk3MvwKbVH3grQ
歡迎將我們?cè)O(shè)為“星標(biāo)”,這樣才能第一時(shí)間收到推送消息。
關(guān)注EEWorld旗下訂閱號(hào):“機(jī)器人開發(fā)圈”
回復(fù)“DS”領(lǐng)取《DeepSeek:從入門到精通》完整版
掃碼添加小助手回復(fù)“機(jī)器人”
進(jìn)群和電子工程師們面對(duì)面交流經(jīng)驗(yàn)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.