337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

推理芯片時代,正式開啟

0
分享至

公眾號記得加星標??,第一時間看推送不會錯過。


本周,超過3萬人涌入加州圣何塞,參加英偉達全球技術大會(Nvidia GTC),這場被譽為“人工智能超級碗”的盛會——這個綽號或許是英偉達自己起的,也或許不是。在大會主會場,英偉達首席執行官黃仁勛登臺宣布(除其他事項外)一系列新一代Vera Rubin芯片,這對于這家GPU巨頭來說尚屬首次:一款專為處理人工智能推理而設計的芯片。這款名為Nvidia Groq 3的語言處理單元(LPU)融合了英偉達去年圣誕節前夕以200億美元從初創公司Groq獲得授權的知識產權。

“人工智能終于能夠從事生產性工作了,因此推理能力的轉折點已經到來,”黃仁勛對在場聽眾說道。“人工智能現在必須思考。為了思考,它必須進行推理。人工智能現在必須行動;為了行動,它必須進行推理?!?/p>

訓練和推理任務對計算資源的需求截然不同。訓練可以同時處理海量數據,耗時數周,而推理則必須在用戶提出查詢后立即運行。與訓練不同,推理不需要運行成本高昂的反向傳播算法。對于推理而言,低延遲至關重要——用戶期望聊天機器人能夠快速響應,而對于需要思考或推理的模型來說,在用戶看到輸出結果之前,推理過程往往已經運行多次。

過去幾年,專注于推理的芯片初創公司經歷了類似寒武紀大爆發的局面,不同的公司探索著不同的方法來加速推理任務。這些初創公司包括:采用數字內存計算的D-matrix ;采用用于Transformer 推理的ASIC 芯片的Etched ;采用神經形態芯片的RainAI;采用模擬內存計算的EnCharge ;采用對數運算以提高 AI 計算效率的Tensordyne ;以及采用針對張量運算而非向量矩陣乘法優化的硬件的FuriosaAI等等。

去年底,英偉達宣布與Groq達成合作協議,似乎已經從眾多推理芯片中選出了佼佼者。僅僅兩個半月后,英偉達Groq 3 LPU便正式發布,凸顯了推理市場蓬勃發展的緊迫性。

內存帶寬和數據流

Groq 的加速推理方法依賴于芯片上處理單元和存儲單元的交錯排列。它沒有采用位于GPU旁邊的高帶寬內存 (HBM) ,而是利用集成在處理器內部的SRAM內存。這種設計極大地簡化了芯片內的數據流,使其能夠以精簡的線性方式進行。

“數據實際上是直接流經SRAM的,”馬克·希普斯在2024年的超級計算大會上說道。當時希普斯是Groq的首席技術推廣官,現在是英偉達的開發者營銷總監?!爱斈阌^察多核GPU時,你會發現很多指令需要先發送到芯片之外,進入內存,然后再返回芯片。而我們不需要這樣做。所有數據都是以線性順序流經的?!?/p>

使用 SRAM 可以實現極快的線性數據流,從而滿足推理應用所需的低延遲?!癓PU 專門針對這種極低延遲的令牌生成進行了優化,”英偉達超大規模和高性能計算副總裁兼總經理Ian Buck表示。

將 Rubin GPU 和 Groq 3 LPU 并排比較,可以明顯看出它們之間的差異。Rubin GPU 擁有高達 288 GB 的 HBM 顯存,能夠以每秒 50 千萬億次浮點運算 (petaFLOPS) 的速度進行 4 位運算。而 Groq 3 LPU 僅配備 500 MB 的 SRAM 內存,能夠以每秒 1.2 千萬億次浮點運算 (petaFLOPS) 的速度進行 8 位運算。另一方面,Rubin GPU 的內存帶寬為每秒 22 TB,而 Groq 3 LPU 的內存帶寬高達每秒 150 TB,速度是其七倍。這種精簡且以速度為導向的設計,正是 Groq 3 LPU 在推理方面表現卓越的原因。

這款新型推理芯片凸顯了人工智能應用的持續趨勢,即計算負載從構建規模越來越大的模型轉移到大規模使用這些模型?!坝ミ_的發布驗證了基于SRAM架構的大規模推理的重要性,而d-Matrix在SRAM密度方面無人能及,”d-Matrix首席執行官Sid Sheth表示。他認為,數據中心客戶需要多種處理器來進行推理?!白罱K勝出的系統將結合不同類型的芯片,并能與GPU輕松集成到現有數據中心中?!?/p>

僅用于推理的芯片可能并非唯一解決方案。上周晚些時候,亞馬遜網絡服務 (AWS)宣布將在其數據中心部署一種新型推理系統。該系統結合了 AWS 的 Tranium AI 加速器和Cerebras Systems 的第三代計算機 CS-3 ,后者基于迄今為止最大的單芯片構建。這套兩部分組成的系統旨在利用一種名為推理分解的技術。它將推理過程分為兩部分:處理提示信息(稱為預填充)和生成輸出(稱為解碼)。預填充本質上是并行的、計算密集型的,并且不需要太多的內存帶寬。而解碼則是一個串行過程,需要大量的內存帶寬。Cerebras通過在其芯片上構建了 44 GB 的 SRAM ,并通過 21 PB/s 的網絡進行連接,最大限度地解決了內存帶寬問題。

英偉達也計劃在其名為Nvidia Groq 3 LPX的新型組合計算托盤中利用推理分解技術。每個托盤將容納8個Groq 3 LPU和一個Vera Rubin,后者將Rubin GPU與Vera CPU相結合。解碼過程中的預填充和計算密集型部分由Vera Rubin完成,而最后一部分則由Groq 3 LPU完成,從而充分利用每個芯片的優勢。“我們現在已經開始量產了,”黃仁勛說道。

推理成為下一個人工智能芯片戰場

Cambrian AI Research 的創始人兼首席分析師 Karl Freund 表示,推理與訓練在經濟效益和性能要求方面存在根本差異。訓練 AI 模型是一項成本支出,而推理則是一項“利潤中心”,能夠直接產生收入。

Freund 和 Kimball 指出,雖然 GPU 性能卓越,但它們通常采用針對訓練優化的架構特性,這些特性在純推理應用場景中并不總能轉化為更低的延遲或更高的效率。專用的推理芯片——ASIC 和其他加速器——可以提供更快的響應速度、更高的能效和更低的總體擁有成本。

弗羅因德說:“作為利潤中心,如果你的延遲低,你就能創造更多收入,因為人們希望盡快得到響應,而你也希望以盡可能低的成本獲得響應?!?/p>

分析師表示,GPU(以英偉達為絕對主導,AMD緊隨其后)在大型訓練和推理領域占據主導地位,并將繼續在最大規模的工作負載中保持領先地位。然而,推理需求的激增正在創造GPU以外的機遇,尤其是在主流企業今年將規模從試點擴展到生產階段之際。

“你會看到一些規模較小的公司,它們的員工人數可能只有一萬人左右,而不是十萬人,開始在生產制造、后臺辦公、前臺運營以及邊緣計算等領域應用人工智能,”金博爾說道。這些公司面臨著電力限制、散熱難題以及持續的GPU供應挑戰,使得在許多環境下構建GPU密集型集群變得不切實際。

“部署GB200或H100這類設備時,功率都在千瓦級,”金博爾指出?!傲闶郗h境的電力預算有限,散熱條件也不好,所以不可能運行一整機架的GPU。你得尋找其他替代方案。”

對于規模較小的公司,例如擁有100家分行的銀行,總體擁有成本和功耗預算是首要考慮因素,這為專注于推理技術的初創公司提供了滿足其需求的機會。“芯片初創公司在這方面擁有巨大的發展機遇,”金博爾說道,“它們能夠滿足現有廠商無法滿足的客戶需求,這些需求可能是由于產品供應不足,也可能是由于特定的性能和功耗要求。”

Freund表示,雖然GPU目前仍然是推理的最佳通用解決方案,但市場正在轉向ASIC以及AWS、谷歌和初創公司等提供的替代架構。

根據 Futurum Group 2025 年 11 月的一項調查,到 2025 年,GPU 占數據中心計算支出的 58%;到 2026 年,XPU(既不是 GPU 也不是 CPU 的處理器,例如 ASIC 和定制加速器)預計將以 22% 的增長引領增長,超過 GPU (19%) 和 CPU (14% )。

“隨著推理工作負載在令牌輸出方面超過訓練工作負載的總量,對多樣性的需求將會更大,因為替代的 XPU 架構可以在某些特定的推理任務上實現更高的效率,”Futurum Group 半導體、供應鏈和新興技術研究總監 Brendan Burke 表示。

AWS 的案例表明了這種日益增長的需求。AWS 技術總監 Shaown Nandi 表示,這家超大規模數據中心支持 Nvidia、AMD 和 Intel 的芯片用于 AI 工作負載,同時還提供定制芯片,為客戶提供更多選擇。Nandi 補充道,許多客戶傾向于使用 Nvidia 芯片來優化基于 CUDA 的模型,而其他客戶則越來越多地選擇AWS 的 Trainium 芯片 ,因為它具有更高的性價比和效率。

他解釋說:“它們的需求量都非常大。Bedrock(AWS 的推理服務)上超過 50% 的代幣都運行在我們的 Trainium 芯片上?!?/p>

英偉達已經意識到對專用推理處理器的需求。2024年,高管們表示,其數據中心約40%的收入將來自推理業務。2025年9月,英偉達發布了Rubin CPX,這是一款專為超大規模和大型企業部署中的大規模上下文推理而設計的GPU,尤其適用于解碼前的預填充階段。據報道,英偉達與Groq達成的授權協議旨在將快速、低延遲、低成本的推理技術集成到其AI工廠架構中;CNBC報道稱,英偉達計劃采用Groq的低延遲處理器來支持更廣泛的實時推理。

除了計劃收購 SambaNova 之外,英特爾還在探索多種推理方案。該公司已在其至強 CPU 中集成 AMX 加速器,并提供專用于推理工作負載的 Gaudi AI 加速器。“如今,許多推理任務都在 CPU 上完成。未來,許多推理任務仍將在 CPU 上完成?!苯鸩栒f道。

AMD 在收購 Untether AI 的工程團隊后,于 2025 年 11 月收購了推理初創公司 MK1。MK1 開發軟件,可優化 AMD GPU,以便在大規模企業部署中進行高速推理和推理。

Freund 在 2025 年 12 月的一篇博客文章中表示,谷歌最新的 TPU 芯片將成為推理領域的有力競爭者,而高通即將推出的 AI200 和 AI250 芯片有望提供巨大的內存容量和更低的成本,可能成為極具吸引力的數據中心選擇。

推理機會涵蓋數據中心和邊緣計算,而具體要求則因工作負載和部署方式而異?!澳阍谧詣玉{駛汽車中進行的推理與你作為在線客服機器人進行的推理截然不同,”金博爾說道。

Tirias Research首席分析師Jim McGregor指出,推理機會存在于所有進行計算的地方,包括智能手機、個人電腦和汽車?!皼]有兩個工作負載是完全相同的,但我們將會看到針對不同工作負載的多種不同類型的AI加速器,”他說道?!笆袌鋈蕴幱谠缙陔A段,仍然有很大的發展空間,足以容納眾多供應商?!?/p>

Freund 預測,到 2026 年,大多數推理仍將在數據中心運行,而不是在邊緣運行。

數據中心推理領域的競爭者包括Cerebras和 Tenstorrent。Cerebras 成立于 2015 年,大約一年前開始在其晶圓級芯片上提供推理功能。Cerebras 產品與戰略高級副總裁 Andy Hock 表示,其系統可以通過軟件在訓練模式和推理模式之間切換,目前約 70% 的工作負載集中在推理方面。訓練仍然是該公司收入的主要來源。

Tenstorrent 成立于 2016 年,由曾參與設計 AMD Zen 架構的 Jim Keller 領導,該公司正在構建基于 RISC-V 的 AI 推理處理器。

韓國的NPU(網絡處理單元)體現了從邊緣到數據中心的多元化發展。金博爾表示, FuriosaAI以其高效節能的NPU架構和LG等重要客戶而聞名。據報道,該公司在2025年拒絕了Meta的收購要約。另一家韓國初創公司Rebellions則以其基于ARM的技術以及來自ARM和三星風投的大量投資而著稱。

初創公司也在著手解決影響推理性能的關鍵內存和網絡瓶頸問題。開發 RISC-V 芯片設計的 SiFive 公司于 2025 年 9 月推出了第二代 Intelligence 系列協處理器,旨在最大限度地降低其 AI CPU 的內存延遲。NeuReality 公司于 2025 年 9 月推出了 NR2 AI-SuperNIC,這是一款支持超以太網聯盟 (Ultra Ethernet Consortium) 規范的網絡接口卡,可用于橫向擴展計算。d-Matrix 公司開發的內存解決方案,據 Freund 稱,其運行速度比高帶寬內存快四倍,成本更低。

市場展望

分析師預計英偉達將在訓練和推理領域保持主導地位,但多樣化的需求為專業解決方案提供了搶占市場份額的空間。麥格雷戈對快速技術變革背景下初創企業的前景持謹慎態度,并預計會出現更多整合。雖然Groq取得了成功,但其他早期初創企業卻舉步維艱。麥格雷戈指出,除了AMD收購Untether AI和軟銀收購Graphcore之外,SambaNova此前獲得11億美元融資,如今以16億美元的價格出售,與其說是“賤賣”,不如說是“甩賣”。

GPU之所以仍然占據主導地位,是因為它用途廣泛且功能多樣?!斑@就是GPU依然稱霸的原因。它是可編程的,”麥格雷戈說?!澳憧梢孕薷乃?,將其拆分,并同時運行多個模型?!?/p>

Kimball提出了不同的觀點,他預測主流企業將在2026年采用這項技術,從而釋放對以推理為中心的初創公司的需求?!爱斖评硎袌稣嬲墒鞎r,這些初創公司將會發展得更好,”他說道。他預計通用推理芯片和專業垂直解決方案都將迎來發展機遇。

金博爾表示,總體而言,專用推理芯片的優勢——成本更低、功耗更低、性能更強——創造了巨大的機遇。目前這批初創企業能否抓住這些機遇還有待觀察。“這是一個充滿活力、蓬勃發展的創業環境,”他說道,“這里蘊藏著巨大的機遇,創新層出不窮,而現在還處于起步階段?!?/p>

(來源:編譯自IEEE)

*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4348內容,歡迎關注。

加星標??第一時間看推送

求推薦

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
喪夫僅5個月,49歲翁帆突傳“喜訊”高調露面,狀態好到出人意料

喪夫僅5個月,49歲翁帆突傳“喜訊”高調露面,狀態好到出人意料

冷紫葉
2026-03-24 19:12:36
突發!Sora 宣布關停,史上最貴 AI 表情包生成器只撐了七個月

突發!Sora 宣布關停,史上最貴 AI 表情包生成器只撐了七個月

AppSo
2026-03-25 07:20:56
315曝光10個最毒食黑名單!第8個你幾乎天天在吃,看完脊背發涼

315曝光10個最毒食黑名單!第8個你幾乎天天在吃,看完脊背發涼

現代小青青慕慕
2026-03-24 08:13:54
馬刺54勝殺瘋了!名嘴:文班亞馬已步入傳奇領域!

馬刺54勝殺瘋了!名嘴:文班亞馬已步入傳奇領域!

仰臥撐FTUer
2026-03-24 13:55:03
黃景瑜線下真實狀態,又高又帥和路人不是一個圖層

黃景瑜線下真實狀態,又高又帥和路人不是一個圖層

可樂談情感
2026-03-25 11:53:23
信張維迎還是信張維為?這是一個時代之問

信張維迎還是信張維為?這是一個時代之問

壹家言
2026-03-24 22:54:33
中央動真格救生育率!3代人拍手叫好的新提議,這次來真的了

中央動真格救生育率!3代人拍手叫好的新提議,這次來真的了

老特有話說
2026-03-24 15:24:12
伊朗公布停戰條件:47年了,必須做個了斷!伊朗新一輪導彈襲擊:突破以色列多個防御系統;以財長:將吞并黎巴嫩南部

伊朗公布停戰條件:47年了,必須做個了斷!伊朗新一輪導彈襲擊:突破以色列多個防御系統;以財長:將吞并黎巴嫩南部

每日經濟新聞
2026-03-24 18:56:44
張耀鼎不再擔任遼寧省審計廳廳長職務

張耀鼎不再擔任遼寧省審計廳廳長職務

中國經濟網
2026-03-25 13:44:19
公安部172號令落地:70歲駕照不再終身有效,2026年這些事必須辦

公安部172號令落地:70歲駕照不再終身有效,2026年這些事必須辦

小怪吃美食
2026-03-24 17:29:52
朱芳雨回應球迷,道出廣東隊大外援到位時間!

朱芳雨回應球迷,道出廣東隊大外援到位時間!

體育哲人
2026-03-25 10:57:51
突然暴走!3場場均32+8+6,0罰球轟35分創紀錄,弗拉格,慌不?

突然暴走!3場場均32+8+6,0罰球轟35分創紀錄,弗拉格,慌不?

球童無忌
2026-03-25 12:49:06
烏克蘭為何停止北約訓練新兵?俄軍“割頭”驗證身份是真是假?

烏克蘭為何停止北約訓練新兵?俄軍“割頭”驗證身份是真是假?

史政先鋒
2026-03-24 20:02:57
美國想不通,伊朗為啥突然變強大了?靠山是誰?

美國想不通,伊朗為啥突然變強大了?靠山是誰?

凡人侃史
2026-03-25 10:55:46
最多優惠8.33%!新能源車險費改再落地,行業加速尋“兩難”破解之道

最多優惠8.33%!新能源車險費改再落地,行業加速尋“兩難”破解之道

北京商報
2026-03-23 20:30:06
日本現役自衛隊軍官持刀闖中國大使館!日網全在罵他“蠢貨”

日本現役自衛隊軍官持刀闖中國大使館!日網全在罵他“蠢貨”

這里是東京
2026-03-25 07:02:24
俄國家杜馬國防委員會副主席尤里·什維特金因不明原因去世

俄國家杜馬國防委員會副主席尤里·什維特金因不明原因去世

山河路口
2026-03-24 17:13:44
53:47!投票結果出爐,特朗普連夜發文,美國最大的“敵人”變了

53:47!投票結果出爐,特朗普連夜發文,美國最大的“敵人”變了

福建平子
2026-03-25 07:37:48
張雪峰去世,曾言:“如果有一天我死了,各大平臺會有一個熱搜,希望能成為一代人的回憶”

張雪峰去世,曾言:“如果有一天我死了,各大平臺會有一個熱搜,希望能成為一代人的回憶”

神奇故事
2026-03-24 22:38:02
叔本華:性欲是一切欲望的焦點

叔本華:性欲是一切欲望的焦點

聽哲學
2026-03-24 21:42:04
2026-03-25 14:27:00
半導體行業觀察 incentive-icons
半導體行業觀察
專注觀察全球半導體行業資訊
13235文章數 34854關注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關停

頭條要聞

特朗普:希望通過外交方式停戰 以"挽救百萬人生命"

頭條要聞

特朗普:希望通過外交方式停戰 以"挽救百萬人生命"

體育要聞

NBA最強左手射手,是個右撇子

娛樂要聞

張雪峰經搶救無效不幸去世 年僅41歲

財經要聞

張雪峰:寒門講師的商業躍遷

汽車要聞

智己LS8放大招 30萬內8系旗艦+全線控底盤秀實力

態度原創

本地
家居
藝術
公開課
軍事航空

本地新聞

來永泰同安 赴一場春天的約會

家居要聞

輕奢堇天府 小資情調

藝術要聞

《百花譜》,這個春天畫花不用愁!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

以色列媒體:美國計劃于4月9日結束對伊朗戰爭

無障礙瀏覽 進入關懷版