網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

花10億買英偉達GB200只是開始，隱藏成本有多高？

2025-12-05 15:39:27　來源: 親愛的數(shù)據(jù)

浙江舉報

分享至

原創(chuàng)：親愛的數(shù)據(jù)

AI模型大廠，其要者OpenAI，Anthropic，

余如谷歌，AWS，微軟，Meta，亦并包其中。

北美共識，群雄爭霸，

得大批量GB200者，基業(yè)可成。

但AI泡沫之說，甚囂塵上。

假如近日新到貨一批英偉達GB200，

賬單10億美元，

傍晚運抵到貨，擺放在新落成的數(shù)據(jù)中心里，

還沒上電，萬事大吉乎？

只是一個開始，

賬單還遠沒有結(jié)束，

添置資源，還要花錢。

譚老師我數(shù)學(xué)不好，

數(shù)學(xué)題不會就是不會，

幾筆大頭開銷，姑且算算，

若有謬誤，伏望賜教，

服務(wù)器和存儲，

算你50%；

網(wǎng)絡(luò)，

算你10%；

電力，冷卻、數(shù)據(jù)中心等，

算你20%；

運維和人力成本，

算你10%；

配套系統(tǒng)軟件，

算你10%；

掐指一算，跑起來，

綜合成本大約30億左右。

現(xiàn)金嘩啦啦流出現(xiàn)金流量表，

這份賬單，還不是一次性的。

不過，也有人說，卡買到就是賺到。

把GPU買回去，即使當(dāng)時沒用上，

轉(zhuǎn)手租出去，立刻就賺錢。

甚至有的企業(yè)，以租代買，本質(zhì)就是買了，

只是財務(wù)計賬方式不同。

花錢還是賺錢，

我認為，光看近期的財報沒用，

大賽道的回報肯定不在當(dāng)下。

最近阿里說：未來三年內(nèi)，

不太可能出現(xiàn)人工智能泡沫。

完全同意。

在我看來，AI的生意越來越像：

超級巨輪在大海里捕鯨。

傳統(tǒng)的大云廠商在規(guī)模和基礎(chǔ)設(shè)施上，

具有壓倒性優(yōu)勢。

買到卡，生死攸關(guān)；

用好卡，關(guān)乎存亡。

今天我們重點來聊聊，

卡到手了，怎么用好？

因為省下的，約等于賺到的。

譚老師和某位AI infra匿名專家聊完，

得知頭部廠商對軟件團隊——“重新分工”，

對，沒聽錯，重新分工。

這種像“組織升級”的東西，

是《甄嬛傳》，還是《九子奪嫡》？

好問題，都不是。

我長話短說，不過說來話長。

AI軟件棧上面，其實是兵分兩路的，

兩個部門，也是兩個兵種：算法組，系統(tǒng)組，

各有專攻，高度分離。

既然重新分工，

有三個問題要先聊透？

1.原來如何分工？

2.為什么要重新分工？

3. 如何重新分工？

以前，兩個組的關(guān)系，

就像“兩個獨立的部門”。

算法組，追求創(chuàng)新，追求準確性，

常常只停留在理論創(chuàng)新或數(shù)學(xué)層面；

通常不太考慮算法如何在AI芯片上高效跑起來，

這件事是系統(tǒng)組的職責(zé)。

但是，系統(tǒng)組接手的時候，

局面已相當(dāng)被動了。

這種被動，一時半會不會結(jié)束。

隨著模型日益變大，

舊打法不變恐怕不行，

因為這種“分而治之”的模式，

已經(jīng)逐漸變得非常低效。

簡單說，算法組設(shè)計算法，

系統(tǒng)組負責(zé)，支持支持，大力支持。

無論你是寫算子，還是優(yōu)化算子，

AI大模型軟件棧，越往下做，它的復(fù)雜性越高，

想做好，付出代價越大。

整個大模型的系統(tǒng)想提效10%，

恐怕要幾十個人，干個把月，

面對這種被動，必須拿出辦法解決。

常言道，出奇制勝。

既然一直以來，

算法和系統(tǒng)“高度分離”

能不能讓它們“天然打通”？

能，就是得變。

人很難脫離自身的崗位視角去做全局判斷，

這就是“屁股決定腦袋”的現(xiàn)實邏輯。

所以，重新分工。

算法的核心——創(chuàng)新，當(dāng)然還是在算法組。

從這個角度，系統(tǒng)組將會主導(dǎo)哪些關(guān)鍵決策？

模型的大結(jié)構(gòu)包括，規(guī)模、層數(shù)等，

比如，MoE的層數(shù)，頭數(shù)等。

一般來說，模型結(jié)構(gòu)里，

會重復(fù)堆疊了多個“基礎(chǔ)功能模塊”，

這件事情能不能交給系統(tǒng)組？

讓系統(tǒng)組負責(zé)部分“模型結(jié)構(gòu)”，

算法設(shè)計就會從一開始就有了硬件執(zhí)行性，

或者說算法設(shè)計貼近AI芯片實現(xiàn)。

算法核心方法創(chuàng)新，當(dāng)然還是在算法組。

把工作劃分給系統(tǒng)組的原則是什么？

那些十分影響算力利用率，

影響計算負載的分配，

又會涉及并行計算的部分。

因為這些設(shè)計工作，

需要深入理解硬件架構(gòu)的計算特性。

重新分工聊完了，

我拿到頭部大廠內(nèi)部消息，

這種思路已經(jīng)在內(nèi)部推廣，

推測一下，有哪幾個廠商可以這樣做。

全棧一體化自然不用說，

比如，谷歌和TPU，

AWS和Trainium，

阿里云和其自研芯片。

順著這個思路，恰好最近Gartner出了

GenAI（生成式AI）技術(shù)創(chuàng)新指南系列，

第八期報告，

和我的想法對照一下思路；

在AI基礎(chǔ)設(shè)施這個維度，領(lǐng)導(dǎo)者象限里，

除了以上自研芯片的廠家都在，還有一個微軟，

微軟雖然沒有自研AI芯片，但它有OpenAI。

從位列其他象限的公司來看，

這個玩法，華為也有AI芯片，也可復(fù)制，

但他們在AI云業(yè)務(wù)上稍遜一籌。

而騰訊，甲骨文，IBM也多用英偉達GPU，

所以，它們想進入領(lǐng)導(dǎo)者象限，仍有難度。

全棧一體化打法已是公認，

據(jù)我所知，國內(nèi)有家上市互聯(lián)網(wǎng)廠商，

暗地里也在用全棧一體化的打法。

這家的創(chuàng)始人，

是清華系互聯(lián)網(wǎng)老兵，

他們用了不少華為昇騰系列（Ascend）芯片。

這家在模型算法的投入已經(jīng)夠大了，

仍然毫不猶豫在系統(tǒng)組投大量人力，

加人干什么呢？開發(fā)昇騰算子。

到底買了多少華為的卡？我不能說；

我能說的是，他們決心很大。

無論重新分工，還是國產(chǎn)芯片（算子）投入，

英雄不問來路，為了同一個目標：

將算法和系統(tǒng)打通，最大化芯片效率。

而想位列Gartner，既要有相當(dāng)規(guī)模的卡，

還要上面模型好，

再要下面系統(tǒng)組實力強，

三者缺一不可，

這個維度的競爭，有些強者恒強的味道，

領(lǐng)先好幾個身位，

有意思的是，有能力的新興挑戰(zhàn)者象限，

居然空空如也，為啥？

因為候選人都還停留在專家象限，

意思是當(dāng)前能力弱+未來潛力弱，

這一象限有那些不缺卡的大廠商（富二代），

卡多，但模型上不發(fā)力，

比如，英偉達的親兒子CoreWeave。

不過，我不同意Gartner報告，

對Cloudflare的判斷，

它在AI Agent工具領(lǐng)域舉措頗大，

吸引大批開發(fā)者，

很多工具的進展，

甚至比AWS的速度還要快。

干AI這行的，

誰還沒被算力賬單虐過？

“重新分工”才能把卡利用好；

才能在模型本身和工程兩方面，

對算法和系統(tǒng)分而治之的廠商，

形成降維打擊。

上一節(jié)是“分工”的理論，

這一節(jié)，我們用GPU例子，聊聊實踐。

有一個算子（叫Attention Mask）。

這個算子的本質(zhì)是“注意力計算的范圍控制器”，

它的思路很松弛，對待token，

“該算的算，不該算的扔”，

這樣計算量就不再是“全量計算”，

而是再讓芯片特性和“扔掉后”的計算邏輯“對齊”。

怎么對齊？扔掉后，重新打包，

成為適合并行計算的方式，再給GPU處理。

這件事情先由算法組決定：

“為什么要扔掉？”，“扔掉哪些？”“扔掉后要達到什么效果？”，

下面，再由系統(tǒng)組負責(zé)：扔掉一部分token后，

計算邏輯怎么在AI芯片上跑最快？

這樣，芯片不會算了不該算的，浪費時間。

為什么我舉了一個“注意力”的例子？

有專家告訴我，他判斷，

2026年將會是“注意力”的大年，

我完全同意。比如，線性注意力，

今年收獲了不少好論文（阿里，字節(jié)跳動），

好實踐（MiniMax-01）；

國內(nèi)唯一！阿里千問斬獲NeurIPS 2025最佳論文獎

我也認為，“注意力”明年會有大變化。

但是，無論怎么變化，

“注意力”的發(fā)展方向都是：

降低計算復(fù)雜度，降顯存。

阿里云人工智能平臺PAI，大數(shù)據(jù)平臺DataWorks負責(zé)人，黃博遠告訴我：“AI的開發(fā)范式升級，從穩(wěn)定、超大規(guī)模的預(yù)訓(xùn)練開始，到基于后訓(xùn)練的行業(yè)快速定制，快速落地；AI開發(fā)門檻會大大降低，推廣也會加速，促進行業(yè)應(yīng)用增長，這樣形成的AI生態(tài)是：上游是通用模型生產(chǎn)者與平臺方（如阿里），中游是用垂直行業(yè)知識優(yōu)化模型。下游是最終AI應(yīng)用的使用者，也就最廣大的用戶群體。”

“重新分工”這種“打通”的方式，有利于模型豐富度，有利于工程化，有助于AI平臺進化，因為AI平臺需應(yīng)對不同的算法和不同的場景，面對的挑戰(zhàn)不僅是模型架構(gòu)的復(fù)雜性，還包括硬件支持的多樣性。

AI工程，可以分得很細，

這樣，大量創(chuàng)業(yè)公司就有機會專注細分領(lǐng)域，

從而做出獨特優(yōu)勢，

雖然這方面大云廠商的工程化成熟度都高。

但是，市場上挑戰(zhàn)者也多，

玩得好，甚至可以做大，擠進領(lǐng)導(dǎo)者象限。

常有創(chuàng)新公司公司在領(lǐng)導(dǎo)者象限出現(xiàn)，令人興奮；

也是AI這行的魅力之所在。

尤其是當(dāng)下，工程化價值較高的時期。

模型變化劇烈，再強的巨頭也不敢妄論輸贏，甚至不敢判讀當(dāng)下的認知完全正確。今年的變化，很容易發(fā)現(xiàn)，不少廠商的模型淪為長尾，消失在旗艦?zāi)Ｐ偷姆疥嚴铮愿斜瘺觥?/p>

年末，冬已向晚，時間邁入2025年最后一個月，今年優(yōu)秀旗艦?zāi)Ｐ蛯映霾桓F：GLM4.6，MiniMax M2，Kimi K2。而美國Meta公司的Llama系列開源模型，

卻從C位快速滑向邊緣。

我曾經(jīng)在硅谷見到過Llama3的高級研發(fā)，也和Llama3產(chǎn)品經(jīng)理有過簡單交流，回想當(dāng)時，講臺上，沒有聚光燈刻意雕琢，他們身上也閃爍著技術(shù)普惠者獨有的光……那時候，硅谷有位研發(fā)和我聊起來：

“你知道嘛？阿里的千問就是中國版的Llama，

一模一樣的開源策略。”

此論彼時頗有見地，如今則不合時宜。

Llama后續(xù)版本接連失利，

而千問系列，越打越強，

阿里優(yōu)質(zhì)模型不勝枚舉，

Qwen3-VL是圖文理解模型，

通義萬相2.5是視頻生成模型，

Qwen3-Omni是全模態(tài)模型

沒有人再會說，這是中文版的Llama。

DeepSeek也依舊精彩，

最近的多個版本都有驚喜。

Qwen和DeepSeek，

直接承包了中文模型下載量的絕對大頭。

而且只要有更新，

B端客戶緊隨其后，版版不落。

某能源央企內(nèi)部員工告訴我，

基礎(chǔ)模型有三個模型一定會部署，

兩大開源頭部模型和垂直模型（能源）。

原話是：“又不要錢，

為啥不馬上用最新的開源版本”，

可見，除了開源，

“AI能力+垂直場景”的特色模型廠商也很受歡迎，

因此，在Gartner報告，
“GenAI模型提供者維度”，
領(lǐng)導(dǎo)者象限亮眼的有三家：
Writer（企業(yè)級+寫作素材），
Cohere（企業(yè)級+合規(guī)安全），
UiPath（RPA+AI知識自動化平臺）。

“模型”周邊也是不燒卡的玩法，

AI知識管理剛好用上。

知識管理這件事，

最適合的梗就是，誰考完試還看書？

答案是企業(yè)。

因為只要企業(yè)的業(yè)務(wù)還在經(jīng)營，

知識積累就在持續(xù)。

過去幾年，

AI的重點都在“模型本身”，

2025年“模型周邊”興起。

換句話說，除了模型本身還強大不夠，

還要在周邊搭腳手架，

比如，重要組件——AI搜索（引擎）。

模型周邊腳手架也是能夠提高模型能力，

但能節(jié)省算力的解決方案。

搜索引擎一定要從頭做起嗎？

答案是肯定的，

需要時間和技術(shù)積累，

而且難度高，投入大。

而且輕量化的搜索，

不讓用戶獲取到最精準的幫助，

如果是垂直大模型（能源，物流，電力），

還需要和整套搜索系統(tǒng)架構(gòu)同時做起來，

消耗極大，難上加難。

以上是AI搜索。

而AI知識管理，據(jù)我了解，

現(xiàn)在很多坐擁多元化戰(zhàn)略的大型企業(yè)，

建設(shè)知識管理，

會建設(shè)一個語義搜索和RAG的基礎(chǔ)平臺，

這是整個AI生態(tài)系統(tǒng)的根基，

也就是“第一層樓”

“第一層樓”的目標是，

為知識融合和智能應(yīng)用提供支持。

而第二層樓是數(shù)據(jù)和知識互聯(lián)互通，

又是難打之戰(zhàn)，后面其實還有很多層樓，

就不展開討論了，

在這個賽道，大家?guī)缀踹€在投入階段；

Istari企業(yè)智能創(chuàng)始人楊薈博士告訴我；

“第一，AI知識管理摸索過程中，

會遇到很多純模型廠商難以預(yù)料的現(xiàn)實問題。

我相信，哪怕是OpenAI和谷歌手里，

也不會有答案。

企業(yè)內(nèi)部的很多知識來源于，

對私有數(shù)據(jù)中信息的提煉，

怎么樣把數(shù)據(jù)平臺和知識平臺打通，

現(xiàn)在沒有成熟方案，

大部分有數(shù)據(jù)管理能力的公司，

都聲稱有建設(shè)能力。

第二，這個賽道有好幾種玩家，

有做大模型的進來，

有傳統(tǒng)文檔和項目管理的進來，

還有知識圖譜和數(shù)據(jù)庫的公司進來。”

這在Gartner的第四份報告中也有體現(xiàn)，

左下象限，H2O是個老牌數(shù)據(jù)分析公司，

Asana公司的軟件是做項目管理和項目協(xié)作，

也是老牌，其軟件有團隊文檔管理的功能；

Stardog公司主要產(chǎn)品是企業(yè)知識圖譜。

特別值得注意的是，

一些老牌企業(yè)，經(jīng)過多年運營，

坐擁大量企業(yè)知識，

技術(shù)文檔，供應(yīng)鏈數(shù)據(jù)等；

投入AI知識管理，

比模型公司更容易做出成績。

所以，在領(lǐng)導(dǎo)者象限，

除了大云廠商熟悉的身影，

如擅長向量檢索+實時查詢廠商Ealstic，

也有IBM這種老牌科技企業(yè)，

供應(yīng)鏈長，多年全球化經(jīng)營，

且在大規(guī)模IT基礎(chǔ)設(shè)施，

企業(yè)級服務(wù)方面都有優(yōu)勢。

右下象限為什么空缺？

因為知識管理領(lǐng)域的首要目標客戶是企業(yè)，

企業(yè)絕不接受畫餅。

不接受“當(dāng)前能力弱+未來潛力高”的廠商，

俗稱：“餅太硬，吃不了。”

也就是說，廠商要有絕對實力，

且是當(dāng)下就有。

我總結(jié)一下，

在“AI知識管理應(yīng)用/通用生產(chǎn)力”維度，

Gartner報告的評測范圍覆蓋很廣

包括企業(yè)級 AI 搜索、對話式 AI 平臺，

以及用于溝通和內(nèi)容開發(fā)的生產(chǎn)力工具，

這些應(yīng)用當(dāng)下對“工程”能力較為依賴，

所以和前面工程維度的挑戰(zhàn)者象限，

有不少重合廠商，

而且是大數(shù)據(jù)時代就很優(yōu)秀的廠商。

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.