網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek時(shí)代，ASIC芯片加冕為王

2025-04-11 08:11:30　來源: EEWorld電子工程世界

北京舉報(bào)

分享至

從2022年底ChatGPT橫空出世，到2023年百模大戰(zhàn)，再到近三個(gè)月OpenAI推出GPT4.5、xAI發(fā)布Grok3、Anthropic推出Claude3.7 Sonnet、Meta發(fā)布Llama4，大模型迭代速度一直在加速。而國(guó)內(nèi)則迎來一場(chǎng)開源的狂飆突進(jìn)，DeepSeek開源了V3和R1，阿里通義千問開源了全新推理模型QwQ-32B。在這樣的發(fā)展之下，中國(guó)生成式AI用戶達(dá)到3億，超過人口的20%還多，而在去年年底這一數(shù)字是2.49億，三個(gè)多月的時(shí)間就增長(zhǎng)了5000多萬。

對(duì)AI大模型來說，落地才是最緊迫的任務(wù)。所以，AI芯片的混戰(zhàn)下半場(chǎng)，已然逐漸從訓(xùn)練端，卷到推理端。從器件形態(tài)來看，ASIC面對(duì)AI推理的效率一定更高。

昨日，谷歌最強(qiáng)AI芯片第七代TPU（張量處理單元）——Ironwood正式亮相，這款TPU芯片性能狂飆3600倍，直接叫板英偉達(dá)Blackwell B200。這或許意味著，ASIC的戰(zhàn)爭(zhēng)更進(jìn)一步了。

ASIC：和GPU相互補(bǔ)

眾所周知，ASIC作為一種定制芯片，其計(jì)算能力和效率都嚴(yán)格匹配任務(wù)算法，芯片核心數(shù)量、邏輯計(jì)算單元、控制單元比例、緩存以及芯片架構(gòu)都是精確定制，因此ASIC擁有價(jià)值的性能、體積、功耗。

但與之相對(duì)的，ASIC的開發(fā)需要很長(zhǎng)的開發(fā)周期，并且具有很大的開發(fā)風(fēng)險(xiǎn)，所以英偉達(dá)GPU憑借其強(qiáng)大通用算力和軟件生態(tài)在AI時(shí)代取得勝利。

廠商對(duì)能效比和成本的追求是永無止境的，谷歌、亞馬遜、Meta、OpenAI等大型云計(jì)算和大模型廠商均加速布局定制化ASIC，ASIC正逐步發(fā)展成為英偉達(dá)GPU之外的重要新技術(shù)路線。摩根士丹利預(yù)計(jì)，AI ASIC市場(chǎng)規(guī)模將從2024年的120億美元增長(zhǎng)至2027年的300億美元，復(fù)合增長(zhǎng)率達(dá)34%。

對(duì)AI訓(xùn)練來說，需要很強(qiáng)大的并行算力，而AI推理則對(duì)算力需求有所下降，同時(shí)算法也相對(duì)固定，加之目前很多企業(yè)的ASIC基本都完成研發(fā)。所以，現(xiàn)在逐漸形成英偉達(dá)GPU主導(dǎo)AI訓(xùn)練，推理階段更多廠商轉(zhuǎn)向ASIC芯片的局面。當(dāng)然，其中也有一些例外情況，比如蘋果選擇使用谷歌TPU訓(xùn)練模型。

DeepSeek的出現(xiàn)更是推動(dòng)行業(yè)關(guān)注推理上限，提升算力效率并降低成本，使競(jìng)爭(zhēng)格局更趨多元。需要強(qiáng)調(diào)的是，ASIC最終不會(huì)取代GPU，而是與其分工協(xié)作。

谷歌TPU：性能再次起飛

TPU是一種專為處理張量運(yùn)算而設(shè)計(jì)的ASIC芯片，由谷歌自研在2016年推出首款產(chǎn)品。在深度學(xué)習(xí)的世界里，張量（多維數(shù)組）是無處不在的。TPU就是為了高效處理這些張量運(yùn)算而誕生的。

昨日，谷歌正式發(fā)布旗下第七代張量處理單元（TPU）Ironwood。谷歌稱，在大規(guī)模部署的情況下，這款 AI 加速器的計(jì)算能力能達(dá)到全球最快超級(jí)計(jì)算機(jī)的24倍以上。

單芯片規(guī)格上，Ironwood顯著提升了內(nèi)存和帶寬，每塊芯片配備192GB高帶寬內(nèi)存（HBM），是去年發(fā)布的上一代TPU Trillium的六倍。每塊芯片的內(nèi)存帶寬達(dá)到7.2 terabits/s，是 Trillium的4.5倍。

此外，Ironwood擁有超模的技術(shù)規(guī)格，當(dāng)每個(gè)pod擴(kuò)展至9216塊芯片時(shí)，可提供42.5 exaflops的AI算力，遠(yuǎn)超目前全球最快的超級(jí)計(jì)算機(jī)El Capitan的1.7 exaflops。每塊 Ironwood芯片的峰值計(jì)算能力可達(dá)4614TFLOPs。

目前，TPU芯片已經(jīng)成為全球第三大數(shù)據(jù)中心芯片設(shè)計(jì)廠商，據(jù)產(chǎn)業(yè)鏈相關(guān)人士透露，谷歌TPU芯片去年的生產(chǎn)量已經(jīng)達(dá)到280萬~300萬片之間。

國(guó)產(chǎn)TPU：耗時(shí)5年的全自研產(chǎn)品

國(guó)內(nèi)也有一家廠商布局TPU，它就是中昊芯英。

中昊芯英由前谷歌TPU芯片核心研發(fā)者楊龔軼凡攜一批來自于谷歌、微軟、三星等海外科技巨頭公司的AI軟硬件設(shè)計(jì)專家于2018年創(chuàng)立。致力于以自研的TPU架構(gòu)高性能AI芯片“ 剎那 ”與計(jì)算集群“ 泰則?”為核心，構(gòu)建AI大模型計(jì)算所需的、國(guó)產(chǎn)自主可控的、能夠匹配海外先進(jìn)水平的AI算力基石。當(dāng)前已與各地政府、運(yùn)營(yíng)商、企業(yè)合作建設(shè)多個(gè)超大規(guī)模智算中心。

創(chuàng)始人楊龔軼凡擁有斯坦福大學(xué)碩士及密歇根大學(xué)學(xué)士學(xué)位，持有54項(xiàng)中國(guó)專利及15項(xiàng)美國(guó)和歐洲專利，發(fā)表ASSCC/ISSCC/JSSCC頂級(jí)論文3篇。深耕硅谷高端芯片研發(fā)十余年，曾主導(dǎo)Google TPU 2/3/4芯片研發(fā)及甲骨文SPARC T8/M8等12款高性能CPU設(shè)計(jì)，累計(jì)成功流片超10次。

產(chǎn)品方面，中國(guó)首枚高性能TPU架構(gòu)AI芯片“ 剎那 ”是中昊芯英歷時(shí)近5年全自研的GPTPU架構(gòu)高性能AI芯片，擁有完全自主可控的IP核、全自研指令集與計(jì)算平臺(tái)。在用于AI大模型計(jì)算場(chǎng)景時(shí)，“ 剎那 ”的算力性能超越海外著名GPU產(chǎn)品近1.5倍，能耗降低30%，成功打破了國(guó)外企業(yè)在高端AI芯片領(lǐng)域的壟斷地位。

“剎那 ”實(shí)現(xiàn)可重構(gòu)多級(jí)存儲(chǔ)、存算一體設(shè)計(jì)、以及流水線式的時(shí)空映射，以強(qiáng)大的并行處理能力實(shí)現(xiàn)大模型計(jì)算速度和精度的雙重提升。同時(shí)采用Chiplet技術(shù)，2.5D封裝實(shí)現(xiàn)同等制程工藝下的性能躍升。支持1024片芯片片間互聯(lián)，系統(tǒng)集群性能遠(yuǎn)超傳統(tǒng)GPU數(shù)十倍，集群擴(kuò)容時(shí)性能可線性增長(zhǎng)，以構(gòu)建千卡、萬卡規(guī)模超算集群。

基于“剎那”芯片構(gòu)建的“泰則” AI計(jì)算集群系統(tǒng)，實(shí)現(xiàn)1024片AI芯片的高速片間互聯(lián)，集群可實(shí)現(xiàn)線性擴(kuò)容，單集群最大浮點(diǎn)運(yùn)算能力達(dá)200P以上，系統(tǒng)級(jí)性能比傳統(tǒng)GPU集群提升數(shù)十倍 “泰則?”大規(guī)模AI計(jì)算集群可支撐包括超千億參數(shù)AIGC大模型運(yùn)算、高級(jí)無人駕駛模型訓(xùn)練、蛋白質(zhì)結(jié)構(gòu)精密預(yù)測(cè)、AlphaGo、 AlphaZero 等在內(nèi)的各類高強(qiáng)度Al運(yùn)算場(chǎng)景。

LPU：Groq借勢(shì)起飛

AI大模型時(shí)代，LPU異軍突起，作為一種全新的ASIC種類瘋狂被“吹捧”。

早在今年1月有消息傳出，美國(guó)推理芯片公司Groq已經(jīng)在自己的LPU芯片上實(shí)機(jī)運(yùn)行 DeepSeek，效率比最新的H100快上一個(gè)量級(jí)，達(dá)到每秒24000token。

此外，Groq曾于2024年12月在沙特阿拉伯達(dá)曼構(gòu)建了中東地區(qū)最大的推理集群，該集群包括了19000個(gè)Groq LPU。

那么LPU到底是什么？

LPU本質(zhì)上是專門為處理自然語言（NLP）任務(wù)而設(shè)計(jì)的一種新型硬件處理器（ASIC芯片）。不過，LPU和其他ASIC不一樣的地方在于存儲(chǔ)。其采用同時(shí)采用存算一體設(shè)計(jì)，把GPU中的HBM，換成了容量更低、但速度更快的SRAM。將高帶寬片上SRAM直接集成到芯片內(nèi)部，有效地降低了內(nèi)存的訪問延遲，還顯著提升了整體計(jì)算的吞吐量。說白了，就是ASIC+存算一體，所以比GPU快。

不過，雖然換成了SRAM，速度確實(shí)變快了，但是整體成本可能反而更高了。曾經(jīng)有人粗略計(jì)算過，按照三年時(shí)間的運(yùn)營(yíng)成本來計(jì)算， Groq LPU采購(gòu)成本會(huì)是英偉達(dá)H100的38 倍，運(yùn)營(yíng)成本達(dá)到了10倍。這么來看，其實(shí)LPU并沒有媒體們渲染地那么“神話”或者“王炸”。

雖然在通用性還有性價(jià)比LPU沒有GPU好，但是LPU的確實(shí)打?qū)嵉靥嵘擞?jì)算能力，擁有很好的能效比，也是可行路線之一。

NPU：時(shí)代的新寵

與TPU和LPU不同，NPU主要是用在邊緣AI中。大模型為AI注入新的活力之時(shí)，邊緣AI的需求也隨之增加，幾大處理器IP廠商，都在擴(kuò)展基于邊緣的AI NPU，以卸載CPU的負(fù)載從而提升效率降低功耗。一些MCU廠商已在其產(chǎn)品中集成NPU內(nèi)核，其中比如NXP、TI、英飛凌、ST、ADI等都是采用自研的NPU IP內(nèi)核。市場(chǎng)上也會(huì)存在一些第三方的NPU IP廠商：

Arm Ethos NPU：在2020年初正式推出Ethos-U55，目前已經(jīng)推出三代產(chǎn)品，目前產(chǎn)品包括Ethos-U55、Ethos-U65。目前已有ALIF、Himax（奇景）、Nuvoton（新唐）、Infineon（英飛凌）推出了基于Cortex-M55+Ethos-U55組合的產(chǎn)品。

安謀科技周易NPU系列：2023年安謀發(fā)布自研“周易”X2 NPU，針對(duì)ADAS、智能座艙、平板電腦、臺(tái)式機(jī)和手機(jī)等細(xì)分應(yīng)用場(chǎng)景進(jìn)行了大量性能優(yōu)化，此外，安謀科技還有“周易”Z系列NPU。值得一提的是，安謀科技新一代“周易”NPU實(shí)現(xiàn)DeepSeek-R1端側(cè)高效部署。

Ceva：具體產(chǎn)品包括Ceva-NeuPro-Nano、Ceva-NeuPro-M、Ceva-NeuPro Studio等。

Cadence：Cadence的Tensilica Neo NPU是高效能、低功耗的神經(jīng)處理單元（NPU），專為嵌入式AI應(yīng)用設(shè)計(jì)。

Synopsys：Synopsys ARC NPX6 NPU IP 系列是業(yè)內(nèi)性能最高的神經(jīng)處理單元（NPU）IP，專為滿足AI應(yīng)用的實(shí)時(shí)計(jì)算需求而設(shè)計(jì)，具備超低功耗。該系列包含ARC NPX6和NPX6FS，支持最新的復(fù)雜神經(jīng)網(wǎng)絡(luò)模型，包括生成式AI，并提供高達(dá)3500 TOPS的性能，適用于智能SoC設(shè)計(jì)。

芯原：官方表示其NPU IP的AI芯片在全球范圍內(nèi)出貨量超過了1億顆，主要應(yīng)用在物聯(lián)網(wǎng)、可穿戴、智能家居、安防監(jiān)控、服務(wù)器、汽車電子、智能手機(jī)、平板電腦等市場(chǎng)。據(jù)悉，其NPU IP已被72家客戶用在了128款A(yù)I芯片當(dāng)中。最新推出的VIP9000系列NPU IP提供了可擴(kuò)展和高性能的處理能力，適用于Transformer和卷積神經(jīng)網(wǎng)絡(luò)（CNN）。

晶心科技：AndesAIRE AnDLA I350 是一款深度學(xué)習(xí)加速器，專為邊緣和終端推理設(shè)計(jì)，提供高性能和高效能的AI解決方案。

其他ASIC芯片：伺機(jī)待發(fā)

ASIC領(lǐng)域，博通和Marvell是兩位主要玩家，二者在AI定制芯片中占據(jù)了約70%的市場(chǎng)份額。

博通在AI芯片領(lǐng)域的核心優(yōu)勢(shì)在于定制化ASIC芯片和高速數(shù)據(jù)交換芯片，其解決方案廣泛應(yīng)用于數(shù)據(jù)中心、云計(jì)算、HPC（高性能計(jì)算）和5G基礎(chǔ)設(shè)施等領(lǐng)域。最新財(cái)報(bào)顯示，博通的AI相關(guān)業(yè)務(wù)收入同比激增220%，主要受AI加速器和網(wǎng)絡(luò)設(shè)備的旺盛需求推動(dòng)。博通CEO陳福陽（Hock Tan）在財(cái)報(bào)會(huì)議上透露，到2027年，其三大客戶對(duì)AI定制芯片的需求規(guī)模預(yù)計(jì)將達(dá)到600億~900億美元。

博通有兩個(gè)大合作備受關(guān)注：第一是Meta與博通已合作開發(fā)了前兩代AI訓(xùn)練加速處理器，目前雙方正加速推進(jìn)第三代MTIA芯片的研發(fā)，預(yù)計(jì)2024年下半年至2025年將取得重要進(jìn)展。第二是OpenAI已委托博通開發(fā)兩代ASIC芯片項(xiàng)目，計(jì)劃于2026年投產(chǎn)，將采用業(yè)界領(lǐng)先的3nm/2nm制程工藝并搭配3D SOIC先進(jìn)封裝技術(shù)。與此同時(shí)，雖然蘋果目前仍在使用谷歌TPU，但其自研AI芯片項(xiàng)目已在積極推進(jìn)中。

Marvell的定制ASIC業(yè)務(wù)正成為其增長(zhǎng)的關(guān)鍵引擎。2019年，Marvell以7.4億美元收購(gòu)格芯（GlobalFoundries）旗下Avera半導(dǎo)體，正式進(jìn)軍ASIC市場(chǎng)。如今，該業(yè)務(wù)已成功吸引亞馬遜、谷歌等科技巨頭的訂單。

2024年12月，Marvell與AWS（Amazon Web Services）達(dá)成五年多代合作協(xié)議，涵蓋AI芯片定制設(shè)計(jì)，進(jìn)一步深化其在云計(jì)算市場(chǎng)的布局。Marvell預(yù)測(cè)，隨著AI算力需求爆發(fā)，ASIC業(yè)務(wù)占比將提升至25%，并預(yù)計(jì)到2028年，數(shù)據(jù)中心ASIC市場(chǎng)規(guī)模將增長(zhǎng)至429億美元。

去年年底，AWS發(fā)布了新一代AI訓(xùn)練芯片Trainium3。這是首款采用3nm工藝節(jié)點(diǎn)制造的AWS芯片，能效提高40%、性能翻倍提升。搭載Trainium3的UltraServer性能預(yù)計(jì)將比Trn2 UltraServer高出4倍。首批基于Trainium3的實(shí)例預(yù)計(jì)將于2025年底上市。

2023年，微軟也發(fā)布了專門用于云端訓(xùn)練和推理的AI芯片（ASIC）Microsoft Azure Maia 100。Maia 100是微軟為微軟云中大語言模型訓(xùn)練和推理而設(shè)計(jì)的首款A(yù)I芯片，采用臺(tái)積電5nm工藝，晶體管數(shù)量達(dá)到1050億個(gè)，因此，當(dāng)涉及到晶體管或時(shí)鐘速度時(shí)，它并不屬于輕量級(jí)。同時(shí)，針對(duì)AI和生成式AI進(jìn)行了優(yōu)化，支持微軟首次實(shí)現(xiàn)的低于8位數(shù)據(jù)類型（MX數(shù)據(jù)類型）。

總結(jié)

ASIC不會(huì)完全取代GPU，但將成為推理市場(chǎng)主導(dǎo)力量，也會(huì)在訓(xùn)練領(lǐng)域有所發(fā)展。谷歌TPU、國(guó)產(chǎn)“剎那”、Groq LPU等創(chuàng)新架構(gòu)，正推動(dòng)AI算力向高效、低成本方向發(fā)展。未來，隨著大模型繼續(xù)發(fā)展，ASIC一定還會(huì)有更大的發(fā)展。

參考文獻(xiàn)

[1]中國(guó)電子報(bào)：https://mp.weixin.qq.com/s/1Drsaz4gfkLQC3TjvaoV6w

[2]鮮棗課堂：https://mp.weixin.qq.com/s/9i5qcCGZj1ynCkTfsA01Yg

[3]機(jī)器之心：https://mp.weixin.qq.com/s/MQRWr_i76Vrw8Z5YQaIbeA

[4]騰訊研究院：https://mp.weixin.qq.com/s/-KhpFHznaLlvbkkIUlSW_A

[5]差評(píng)：https://mp.weixin.qq.com/s/I4ox6Ir5xk3MvwKbVH3grQ

歡迎將我們?cè)O(shè)為“星標(biāo)”，這樣才能第一時(shí)間收到推送消息。

關(guān)注EEWorld旗下訂閱號(hào)：“機(jī)器人開發(fā)圈”

回復(fù)“DS”領(lǐng)取《DeepSeek:從入門到精通》完整版

掃碼添加小助手回復(fù)“機(jī)器人”

進(jìn)群和電子工程師們面對(duì)面交流經(jīng)驗(yàn)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.