![]()
出品 | 《態(tài)度》欄目
作者 | 袁寧
編輯 | 丁廣勝
芯片行業(yè)有一個(gè)不成文的共識(shí):看不清方向的時(shí)候,看老黃怎么做。
過去十年,黃仁勛幾乎定義了AI硬件的游戲規(guī)則——他的GPU從實(shí)驗(yàn)室一路燒進(jìn)了全球每一個(gè)數(shù)據(jù)中心。你可以質(zhì)疑他的皮夾克品味,但沒人質(zhì)疑他的方向感。
所以,當(dāng)老黃在本周GTC大會(huì)上,一邊亮出Vera Rubin平臺(tái),一邊正式推出Groq 3 LPU——這顆以200億美元從初創(chuàng)公司Groq收購(gòu)技術(shù)、快速整合而成的、專門為AI推理而生的芯片——整個(gè)行業(yè)不得不重新校準(zhǔn)坐標(biāo)系。
更勁爆的消息來(lái)自路透社。就在GTC開幕同一周,兩名知情人士透露:
幾個(gè)小時(shí)后的北京凌晨,一位半導(dǎo)體領(lǐng)域的投資人看完GTC的直播回放,連發(fā)三條消息給被投企業(yè)CEO:“老黃把故事講完了。”“融資節(jié)奏要提前。”
他不是唯一一個(gè)睡不著的人。LPU將帶來(lái)哪些新變量?
![]()
GTC引爆的連鎖反應(yīng)
過去兩年,國(guó)內(nèi)做推理方向的芯片團(tuán)隊(duì)在和潛在客戶溝通時(shí),幾乎都經(jīng)歷過同一種對(duì)話模式:架構(gòu)師們審慎地點(diǎn)頭,說(shuō)"方向可能是對(duì)的",然后跟上一個(gè)"但是"——"但我們要看客戶怎么想""但要看老黃怎么做"。
過去兩年,推理芯片公司一直卡在一個(gè)隱形門檻上:技術(shù)上“基本認(rèn)可”,商業(yè)上“沒人拍板”。
典型對(duì)話是: “方向可能對(duì),但要看客戶怎么想。” “或者……看英偉達(dá)怎么做。”這不是技術(shù)問題,是決策責(zé)任問題。
GTC提供了這個(gè)背書。而且力度遠(yuǎn)超預(yù)期,200億美元 + 產(chǎn)品線重構(gòu) + 真實(shí)部署。
網(wǎng)易智能了解到,GTC之后,已有多家國(guó)產(chǎn)GPU廠商和互聯(lián)網(wǎng)大廠開始與國(guó)內(nèi)的推理芯片團(tuán)隊(duì)探討架構(gòu)級(jí)驗(yàn)證的可能性。在芯片行業(yè),這是比簽訂合同更前置、但也更實(shí)質(zhì)的一步——它意味著合作方愿意投入自己的工程資源,在自己的系統(tǒng)架構(gòu)中實(shí)際測(cè)試你的方案能否跑通。
據(jù)多位投資人和從業(yè)者反饋,這波熱度并非只集中在芯片設(shè)計(jì)公司,還沿著產(chǎn)業(yè)鏈向上游蔓延。高速存儲(chǔ)器件、先進(jìn)封裝方案、甚至專用SRAM和新型存儲(chǔ)IP的供應(yīng)商,都開始收到更密集的問詢。一位供應(yīng)鏈人士表示,"好幾家芯片公司突然來(lái)問我們MRAM和高密度SRAM IP的合作意向,之前一年可能才一兩家。"
寒序科技是最先感受到這波變化的公司之一。
有中國(guó)團(tuán)隊(duì)已經(jīng)在這個(gè)方向深耕了3年
GTC當(dāng)晚,寒序科技的內(nèi)部群幾乎刷屏。
工程師們從直播里截圖,一張接一張往群里丟,配的文字越來(lái)越激動(dòng):"跟我們想的一致。""再看這張,更一致了。""這不就是我們兩年前畫的那張圖嗎?"
CEO朱欣岳還沒醒,群里已經(jīng)刷了幾十屏。等他拿起手機(jī),投資人的消息也涌了進(jìn)來(lái),語(yǔ)氣比平時(shí)急切,意思卻高度統(tǒng)一:"方向被驗(yàn)證了,后面的融資節(jié)奏可以聊聊了。"
這種“被驗(yàn)證”的情緒,對(duì)寒序來(lái)說(shuō)意義很大。
寒序科技成立于2023年8月,過去近三年一直在做的事情,和老黃這一周昭告天下的方向幾乎完全重合——超高帶寬、確定性流式架構(gòu)、專為推理設(shè)計(jì)的芯片。換句話說(shuō),寒序可能是國(guó)內(nèi)最早沿著這條路線做國(guó)產(chǎn)LPU的團(tuán)隊(duì)之一。
過去一年,朱欣岳見了不少國(guó)內(nèi)GPU公司和互聯(lián)網(wǎng)大廠的人。但比起拜訪客戶高管,他花更多時(shí)間做的事情是和一線工程師坐在一起,聊趨勢(shì)、聊需求。寒序團(tuán)隊(duì)的底色是交叉學(xué)科——材料、物理、算法、芯片架構(gòu)都有人懂,他們習(xí)慣從第一性原理出發(fā),從大模型的演進(jìn)方向、從器件物理的極限、從系統(tǒng)架構(gòu)的瓶頸多個(gè)維度去推演:推理芯片到底應(yīng)該長(zhǎng)什么樣?
結(jié)論指向同一個(gè)方向:極致高帶寬,舍棄一切冗余功能,只為推理而生。
"之前我們要花很多精力給行業(yè)做教育——為什么需要一顆專門的推理芯片,為什么通用GPU不是最優(yōu)解。"朱欣岳說(shuō),"現(xiàn)在完全不需要了。老黃已經(jīng)替我們講完了。"
但他很清楚,行業(yè)關(guān)注的焦點(diǎn)已經(jīng)從"方向?qū)Σ粚?duì)"切換到了更尖銳的問題:"你的壁壘夠不夠高?性能到底怎么樣?產(chǎn)品什么時(shí)候能上?"
教育市場(chǎng)的苦日子結(jié)束了,證明自己的硬仗才剛剛開始。
“中國(guó)版 Groq”的差異化路徑
寒序科技常被稱為“中國(guó)版 Groq”,但這個(gè)說(shuō)法只對(duì)了一半。
兩家公司確實(shí)瞄準(zhǔn)的是同一個(gè)問題:大模型推理,尤其是 Decode 階段,瓶頸不在算力,而在帶寬。誰(shuí)能更快、更穩(wěn)定地把數(shù)據(jù)送到計(jì)算單元,誰(shuí)就更有機(jī)會(huì)贏下推理時(shí)代。
但寒序和 Groq 的差別,不在“都做高帶寬推理”,而在底層介質(zhì)完全不同。
早在2024年9月和2025年11月,寒序科技就已聯(lián)合北京大學(xué)物理學(xué)院、計(jì)算機(jī)學(xué)院、集成電路學(xué)院,以及澳門大學(xué)模擬與混合信號(hào)集成電路全國(guó)重點(diǎn)實(shí)驗(yàn)室,先后承擔(dān)、主持兩項(xiàng)北京市科技計(jì)劃項(xiàng)目,在北京市科學(xué)技術(shù)委員會(huì)指導(dǎo)下,明確對(duì)標(biāo) Groq 路線與帶寬指標(biāo),前瞻鎖定0.1 TB/mm2/s 級(jí)超大帶寬流式推理芯片研發(fā)。
這意味著,當(dāng) Groq 因 LPU 爆紅時(shí),國(guó)內(nèi)團(tuán)隊(duì)并不是事后追趕,而是已經(jīng)在同步推進(jìn)一條差異化路線。
Groq 的解法,是在芯片上堆大量 SRAM,讓數(shù)據(jù)盡量在片上流動(dòng),以極高帶寬專門承擔(dān) Token 的生成和解碼。這條路證明了一件事:推理時(shí)代,最快的芯片未必是最能算的,而是最能“喂”的。
但 SRAM 的短板同樣明顯。它采用傳統(tǒng)6T 結(jié)構(gòu),單元面積大、密度低、成本高。模型越大,需要的芯片數(shù)量就越多,系統(tǒng)成本也越高。Groq 證明了方向成立,但 SRAM 路線的經(jīng)濟(jì)性始終是業(yè)內(nèi)公開討論的疑問。
寒序的不同,就在這里。
它沒有沿著 GPU 的片外 HBM 路線走,也沒有復(fù)制 Groq 的片上 SRAM 路線,而是選擇用 MRAM 重做推理芯片的存儲(chǔ)底座。MRAM 采用1T1M 結(jié)構(gòu),在相同工藝節(jié)點(diǎn)和芯片面積下,存儲(chǔ)密度可達(dá) SRAM 的5到6倍;讀取速度接近 SRAM,但功耗更低,而且具備非易失性,斷電后數(shù)據(jù)不丟失,無(wú)需持續(xù)刷新。
更關(guān)鍵的是,MRAM 對(duì)極先進(jìn)制程和復(fù)雜封裝的依賴更低。這意味著,寒序有機(jī)會(huì)在相對(duì)成熟、可控的國(guó)產(chǎn)工藝上,做到接近先進(jìn) SRAM 路線的存儲(chǔ)密度和讀出帶寬,把高帶寬推理芯片從一條高度依賴海外供應(yīng)鏈的路徑,挪到一條更有國(guó)產(chǎn)落地可能性的路徑上來(lái)。
在此基礎(chǔ)上,寒序又提出了 MSA(磁性流式處理)架構(gòu):將大規(guī)模 MRAM Banks 緊鄰矩陣計(jì)算單元部署,讓權(quán)重和激活盡可能在局部高帶寬范圍內(nèi)按固定節(jié)拍流動(dòng),降低對(duì)外部存儲(chǔ)的依賴,也減少推理過程中的延遲抖動(dòng)。
據(jù)悉,SpinPU-E 的目標(biāo)訪存帶寬密度為0.1–0.3 TB/mm2·s,已進(jìn)入與 Groq 同量級(jí)的區(qū)間,遠(yuǎn)高于傳統(tǒng) GPU 的水平。
所以,寒序真正的優(yōu)勢(shì),不是“做中國(guó)版 Groq”,而是:在同一條高帶寬推理路線上,用 MRAM 換掉了 SRAM 這層地基。
據(jù)悉,寒序首顆測(cè)試芯片已經(jīng)回片跑通,單位面積帶寬做到了100 GB/s/mm2,與Groq LPU(約0.11 TB/mm2/s)處在同一量級(jí),而英偉達(dá)H100的這一指標(biāo)大約在0.002–0.003 TB/mm2/s。
窗口期有多長(zhǎng)?
方向被巨頭驗(yàn)證是好事,但巨頭親自下場(chǎng)也意味著留給創(chuàng)業(yè)公司的時(shí)間窗口并不長(zhǎng)。推理芯片當(dāng)前也處在一個(gè)微妙的時(shí)間窗口:方向已經(jīng)確認(rèn),但產(chǎn)品尚未定型;市場(chǎng)開始升溫,但真正的大規(guī)模采購(gòu)還沒有到來(lái)。
黃仁勛在GTC上給出了自己的時(shí)間表——Groq LPU預(yù)計(jì)2026年下半年開始規(guī)模出貨,Rubin平臺(tái)也將全面鋪開。這意味著全球推理硬件市場(chǎng)的"iPhone時(shí)刻",大概率在未來(lái)12到18個(gè)月內(nèi)到來(lái)。
對(duì)于中國(guó)的推理芯片公司來(lái)說(shuō),這既是機(jī)遇也是倒計(jì)時(shí)。
最大的壓力在于,巨頭已經(jīng)下場(chǎng),一旦全球頭部廠商完成產(chǎn)品定義、客戶教育和系統(tǒng)適配,留給創(chuàng)業(yè)公司的時(shí)間不會(huì)很多。你可以在局部創(chuàng)新,但必須在足夠短的時(shí)間內(nèi)把創(chuàng)新變成產(chǎn)品,把產(chǎn)品變成客戶可部署的方案,同時(shí)還要有足夠的資金,撐過從技術(shù)驗(yàn)證到規(guī)模落地之間的漫長(zhǎng)跋涉。
但中國(guó)團(tuán)隊(duì)也并非沒有自己的牌。供應(yīng)鏈的確定性是其中之一。
在今天的外部環(huán)境下,很多客戶真正擔(dān)心的不是某一代芯片參數(shù)差10%還是20%,而是兩年后、三年后,這條產(chǎn)品線還能不能穩(wěn)定采購(gòu)、能不能持續(xù)迭代、能不能放心地圍繞它建設(shè)自己的系統(tǒng)。一顆不受管制風(fēng)險(xiǎn)影響、能夠長(zhǎng)期穩(wěn)定交付的推理芯片,為客戶提供的是一種確定性——這恰恰是國(guó)際巨頭即便技術(shù)領(lǐng)先,也未必總能給出的承諾。
但比供應(yīng)鏈更深層的壁壘,是團(tuán)隊(duì)本身。推理專用芯片不是畫一張架構(gòu)圖就能做出來(lái)的。它依賴的是對(duì)底層器件特性的深刻理解、對(duì)高帶寬存算一體結(jié)構(gòu)的長(zhǎng)期工程積累,以及在可靠性驗(yàn)證和產(chǎn)品化過程中與客戶反復(fù)打磨的實(shí)戰(zhàn)經(jīng)驗(yàn)。這些東西無(wú)法靠融一輪錢、挖幾個(gè)人來(lái)速成——它們必須用時(shí)間換。
朱欣岳對(duì)此看得很清楚:"確定性不只來(lái)自供應(yīng)鏈,更來(lái)自團(tuán)隊(duì)對(duì)這條技術(shù)路線的理解深度。我們?cè)诖判源鎯?chǔ)器件和高帶寬存算單元上深耕了數(shù)年,跟上游供應(yīng)商反復(fù)磨合,從工藝到封裝到可靠性,一個(gè)坑一個(gè)坑地淌過來(lái)。工程師是我們自己培養(yǎng)的,經(jīng)驗(yàn)教訓(xùn)是我們自己拿項(xiàng)目喂出來(lái)的,客戶對(duì)可靠性和產(chǎn)品化的每一個(gè)質(zhì)疑,我們都接住過、調(diào)整過。這些東西沒有捷徑,也很難復(fù)制。"
他甚至對(duì)英偉達(dá)進(jìn)入中國(guó)市場(chǎng)持一種"歡迎"的態(tài)度:"如果英偉達(dá)的Groq芯片真的進(jìn)來(lái)了,等于他們又替我們做了一輪市場(chǎng)教育。客戶會(huì)更快地理解推理芯片是什么、能做什么、應(yīng)該怎么用。等到我們的產(chǎn)品級(jí)芯片就緒,客戶甚至不需要重新學(xué)習(xí)——直接適配就行。"
在進(jìn)度上,寒序科技已經(jīng)走到了關(guān)鍵節(jié)點(diǎn)。2026年初回片測(cè)試的芯片,已經(jīng)驗(yàn)證了與Groq LPU一致的帶寬密度——這是超高帶寬流式推理架構(gòu)中最核心、也可以說(shuō)是唯一關(guān)鍵的指標(biāo)。2026年內(nèi),團(tuán)隊(duì)將陸續(xù)完成外部IP驗(yàn)證和可靠性測(cè)試,并在年底完成產(chǎn)品級(jí)芯片的流片。如果時(shí)間表成立,2027年產(chǎn)品級(jí)芯片回片,國(guó)產(chǎn)LPU及完整解決方案將正式鋪開。
但芯片行業(yè)的殘酷之處在于,從流片到量產(chǎn),中間還隔著系統(tǒng)驗(yàn)證、客戶導(dǎo)入等一系列關(guān)卡,每一個(gè)都可能吃掉數(shù)月的時(shí)間。但寒序團(tuán)隊(duì)過去數(shù)年踩過的坑、與上游供應(yīng)商建立起的深度協(xié)作、在可靠性和產(chǎn)品化上積累的工程經(jīng)驗(yàn),恰恰是穿越這段路程最重要的加速器。
所以,回到那條行業(yè)共識(shí):看不清方向的時(shí)候,看老黃怎么做。
現(xiàn)在方向清楚了。剩下的問題只有一個(gè):誰(shuí)能跑得最快?或者更準(zhǔn)確地說(shuō)——誰(shuí)的團(tuán)隊(duì)更稀缺、更不可替代,誰(shuí)就能跑得更快、更遠(yuǎn)。
