![]()
作者:趙雨潤(“商業(yè)潤點”商業(yè)洞察專欄主理人/新消費&AI投資人/企業(yè)家高管教練/香港大學(xué)營銷學(xué)客座講師)
![]()
在最近的GTC 2026大會上,黃仁勛發(fā)布了關(guān)于AI進(jìn)入"推算"時代的重要演講,揭示了從訓(xùn)練到推理的產(chǎn)業(yè)拐點。
在這篇文章中,我將提煉演講的三大主要內(nèi)容:Token工廠經(jīng)濟(jì)學(xué)、推理架構(gòu)革命以及給創(chuàng)業(yè)者和職場人的具體啟示。
硅谷SAP中心,黃仁勛宣告了AI產(chǎn)業(yè)的根本轉(zhuǎn)折:過去都在瘋狂"造模型",現(xiàn)在開始真正"用模型"了。
英偉達(dá)創(chuàng)始人給出的數(shù)字震動全球——到2027年,僅英偉達(dá)旗艦算力芯片就能帶來至少1萬億美元收入。這不僅是數(shù)字飛躍,更是AI從實驗室到工業(yè)生產(chǎn)的標(biāo)志性拐點。
為什么拐點發(fā)生在現(xiàn)在?
這個轉(zhuǎn)折由三個關(guān)鍵節(jié)點引爆。ChatGPT讓AI從理解到生成;O1模型帶來推理能力,讓AI能思考規(guī)劃;ClaudeCode這樣的智能體實現(xiàn)了質(zhì)的突破——能讀文件、寫代碼、編譯測試。AI從工具變成了員工。
三步走下來,計算需求爆炸。黃仁勛透露:AI思考消耗的Token增加了1萬倍,使用量增長100倍,總計算需求則是100萬倍增長。
更關(guān)鍵的是算力結(jié)構(gòu)變遷。根據(jù)斯坦福《2025年人工智能指數(shù)報告》:2023年訓(xùn)練占70%,推理占30%;2025年訓(xùn)練45%,推理55%;2026年達(dá)到訓(xùn)練30%、推理70%的真正拐點;2028年推理占比將高達(dá)73%。
未來三年,每10美元AI算力投入中,有7美元花在推理上。這個結(jié)構(gòu)性變化正在改寫整個芯片市場的競爭規(guī)則。
![]()
Token工廠經(jīng)濟(jì)學(xué):每瓦特Token數(shù)的商業(yè)革命
黃仁勛提出核心概念:"未來的數(shù)據(jù)中心是生產(chǎn)Token的工廠。" Token是AI生成的基本單位。
這套"Token工廠經(jīng)濟(jì)學(xué)"的底層邏輯:數(shù)據(jù)中心受電力限制,1吉瓦工廠永遠(yuǎn)不可能變成2吉瓦。在這個物理約束下,誰的每瓦特Token吞吐量最高,誰的生產(chǎn)成本最低。
黃仁勛將未來AI服務(wù)分為五個層級:免費獲客層、中級3-6美元/百萬Token層、高級6-15美元層、尊享45美元層、極致150美元研究層。
頂級研究服務(wù),一個團(tuán)隊每天消耗5000萬個Token,月成本超過20萬美元。但對前沿科研來說,這些Token帶來的突破價值遠(yuǎn)超成本。
更值得關(guān)注的是,Token預(yù)算已經(jīng)開始進(jìn)入企業(yè)日常運營。
硅谷招人時,"這份工作附帶多少Token額度"已寫入offer。
未來每個工程師都需要年度Token預(yù)算,基礎(chǔ)薪水幾十萬美元,公司還要額外給相當(dāng)于半個基礎(chǔ)薪水價值的Token,讓他們獲得10倍生產(chǎn)力提升。
Vera Rubin與Groq LPU:推理架構(gòu)的雙輪驅(qū)動
硬件層面,黃仁勛發(fā)布了新一代AI計算系統(tǒng)Vera Rubin平臺。核心突破在于推理效率:相比上一代Blackwell,推理吞吐量/瓦特提升10倍,Token成本降至原來十分之一。
真正革命性的是與Groq團(tuán)隊的整合。英偉達(dá)去年以200億美元收購Groq核心技術(shù),推出了LPU推理專用芯片。
黃仁勛提出"非對稱分離推理"架構(gòu):海量計算的"預(yù)填充"交給Vera Rubin,延遲敏感的"解碼"交給Groq LPU。兩者結(jié)合后,特定工作負(fù)載推理吞吐量/功耗比可提升35倍。
Groq LPU內(nèi)置230MB片上SRAM,帶寬80TB/s,首Token延遲低于0.1秒。這種架構(gòu)讓AI實現(xiàn)1000 Token/秒以上的超高速生成,滿足實時交互需求。
創(chuàng)業(yè)者機(jī)會:推理時代的三大掘金方向
這個轉(zhuǎn)折點為創(chuàng)業(yè)者提供了前所未有的機(jī)會,我提煉出三個立即可行的方向。
第一,垂直場景AI優(yōu)化服務(wù)。
以智能眼鏡為例,70%的人買后吃灰,核心是缺乏針對具體場景的深度優(yōu)化。創(chuàng)業(yè)者可以做"廚電行業(yè)智能滲透率提升"服務(wù),把AI眼鏡從擺設(shè)變成實用工具。
避坑:必須極度垂直,不做通用方案;提供端到端解決方案;充分考慮部署成本。
第二,邊緣計算推理部署。
AI正在走出云端,進(jìn)入工廠、汽車、機(jī)器人。這些場景對延遲要求極高,云端推理行不通。
創(chuàng)業(yè)方向:提供"邊緣AI推理盒子",把大模型壓縮到本地設(shè)備運行。比如智能工廠質(zhì)檢,傳統(tǒng)云端分析延遲幾百毫秒,本地設(shè)備可降到10毫秒以內(nèi)。
避坑:看實際推理精度,不看壓縮率;重視功耗約束;針對具體行業(yè)做定制。
第三,AI成本監(jiān)控與優(yōu)化平臺。
隨著企業(yè)AI使用量激增,Token成本管理成為新痛點。很多公司發(fā)現(xiàn)AI應(yīng)用的月開銷從幾萬飆升到幾十萬美元,卻不知錢花在哪。
創(chuàng)業(yè)方向:做"SaaS化AI成本監(jiān)控平臺",幫企業(yè)實時追蹤Token消耗,識別異常使用,提供優(yōu)化建議。
避坑:不只做數(shù)據(jù)展示,要做智能診斷;高度重視數(shù)據(jù)安全;不只服務(wù)大企業(yè)。
職場人士轉(zhuǎn)型:推理時代的生存法則
對于普通職場人,這場變革意味著需要掌握三項核心能力。
第一,算力成本意識。
需要知道不同模型的Token價格,了解如何通過批量處理、緩存優(yōu)化來降低成本。
學(xué)習(xí)路徑:了解主流模型定價,學(xué)習(xí)"上下文窗口"、"輸出Token"等概念。建立成本監(jiān)控習(xí)慣。
第二,模型部署與調(diào)優(yōu)能力。
需要能把模型部署到生產(chǎn)環(huán)境,根據(jù)業(yè)務(wù)需求做調(diào)優(yōu)。
學(xué)習(xí)路徑:掌握Docker容器化,學(xué)習(xí)Kubernetes管理,深入模型服務(wù)框架。
第三,數(shù)據(jù)-算力協(xié)同思維。
需要知道如何準(zhǔn)備高質(zhì)量訓(xùn)練數(shù)據(jù),如何設(shè)計高效推理流程,如何平衡精度和速度。
具體做法:學(xué)習(xí)數(shù)據(jù)預(yù)處理技術(shù),了解模型量化原理,掌握推理優(yōu)化技巧。
Token工廠的未來:從硅谷到千行百業(yè)
黃仁勛描繪了更宏大的圖景:AI工廠將滲透所有行業(yè),每家工業(yè)公司都將變成機(jī)器人公司,每家SaaS公司都將變成智能體即服務(wù)公司。
這意味著AI推理不再只是屏幕代碼,而是進(jìn)入物理世界,接管實時任務(wù),承擔(dān)安全責(zé)任。從智能工廠質(zhì)檢,到自動駕駛決策,再到醫(yī)療影像診斷,AI正在成為核心生產(chǎn)力。
對于小微創(chuàng)業(yè)者,這個轉(zhuǎn)折點提供了前所未有的機(jī)會。
不再需要訓(xùn)練萬億參數(shù)大模型,而是專注于具體行業(yè)的推理優(yōu)化,用黃仁勛的Token工廠思維,為企業(yè)提供降本增效的解決方案。
黃仁勛用一場技術(shù)革命告訴我們:延遲每降1毫秒,AI邊界就拓寬一公里;每瓦特Token吞吐量提升10倍,行業(yè)價值就翻10倍。
當(dāng)延遲消失、成本降低、效率提升,AI時代才真正開始。
現(xiàn)在的問題是:你準(zhǔn)備好跟上這場毫秒級的革命了嗎?
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.