![]()
【摘要】在生成式AI浪潮席卷全球的背景下,算力已經(jīng)成為互聯(lián)網(wǎng)公司最重要的戰(zhàn)略資源之一。
圍繞字節(jié)跳動(dòng)的芯片布局,一條“自研+外采”的雙軌路徑正在逐漸清晰:一方面是內(nèi)部多類AI芯片持續(xù)推進(jìn)研發(fā),另一方面則是對全球高端GPU算力的大規(guī)模采購。
相比單純依賴第三方芯片廠商,字節(jié)跳動(dòng)顯然希望在算力層面獲得更多主動(dòng)權(quán)。
但在NVIDIA等芯片巨頭形成強(qiáng)大生態(tài)壁壘的情況下,這場自研與外采并行的嘗試,究竟意味著什么?
以下是正文:
01
從內(nèi)容審核到AI算力:字節(jié)跳動(dòng)自研芯片的真實(shí)起點(diǎn)
與許多互聯(lián)網(wǎng)公司不同,字節(jié)跳動(dòng)的芯片布局并非直接圍繞大模型展開,而是從內(nèi)容平臺(tái)的推理算力需求切入。
隨著短視頻平臺(tái)規(guī)模不斷擴(kuò)大,抖音和TikTok每天需要處理海量視頻、圖片和文本內(nèi)容,其中相當(dāng)一部分涉及違規(guī)識(shí)別、內(nèi)容審核和風(fēng)險(xiǎn)控制。
這類任務(wù)雖然計(jì)算密集,但算法相對固定,非常適合通過專用AI推理芯片進(jìn)行加速。相比通用GPU,自研專用芯片可以在功耗和成本上獲得更高效率。
據(jù)業(yè)內(nèi)人士透露,字節(jié)目前已經(jīng)在內(nèi)部數(shù)據(jù)中心部署自研AI芯片,用于內(nèi)容識(shí)別和審核等推理任務(wù)。
過去平臺(tái)主要采用“系統(tǒng)初篩+人工復(fù)核”的模式,大量審核工作依賴人工完成,而隨著AI推理能力提升,部分流程已經(jīng)可以由算法自動(dòng)處理。
在這一基礎(chǔ)上,字節(jié)逐漸擴(kuò)展芯片研發(fā)范圍,目前公司內(nèi)部推進(jìn)的芯片項(xiàng)目至少包括AI芯片、服務(wù)器CPU、VPU以及DPU等多個(gè)方向。
VPU主要用于視頻編解碼和視頻處理加速,這與字節(jié)以短視頻為核心的業(yè)務(wù)結(jié)構(gòu)高度契合;DPU則主要面向數(shù)據(jù)中心網(wǎng)絡(luò)與存儲(chǔ)加速,是云計(jì)算基礎(chǔ)設(shè)施的重要組件。
與此同時(shí),字節(jié)也在探索更通用的計(jì)算芯片。相關(guān)人士透露,其AI芯片已經(jīng)迭代至第三代產(chǎn)品,早期版本主要針對特定服務(wù)器場景設(shè)計(jì),并未采用CUDA架構(gòu),而新一代產(chǎn)品則預(yù)計(jì)做CUDA架構(gòu)。
在組織層面,字節(jié)在芯片領(lǐng)域的投入規(guī)模也不小。
據(jù)《金融時(shí)報(bào)》披露,字節(jié)跳動(dòng)2026年計(jì)劃投入AI領(lǐng)域的資金高達(dá)1600億元,其中850億元將專項(xiàng)用于AI處理器的采購與研發(fā)。
不過,從整體技術(shù)路線來看,字節(jié)目前的自研芯片仍然主要集中在推理側(cè)和特定業(yè)務(wù)場景。在訓(xùn)練芯片領(lǐng)域,公司依然高度依賴外部供應(yīng)商。
02
GPU生態(tài)的現(xiàn)實(shí)壁壘:字節(jié)跳動(dòng)為何仍然大量外采
在大模型時(shí)代,訓(xùn)練算力的需求遠(yuǎn)遠(yuǎn)超過傳統(tǒng)互聯(lián)網(wǎng)應(yīng)用,這也是字節(jié)仍然大量依賴第三方芯片的主要原因。
當(dāng)前全球AI訓(xùn)練算力市場幾乎被英偉達(dá)所主導(dǎo)。
其H100 GPU等已經(jīng)成為大型語言模型訓(xùn)練的核心硬件平臺(tái),而CUDA軟件生態(tài)則進(jìn)一步強(qiáng)化了這一優(yōu)勢。
H100 Tensor Core GPU提供3958 teraFLOPS的AI性能,更重要的是,它無需修改即可運(yùn)行整個(gè)PyTorch和TensorFlow協(xié)議棧。
包括OpenAI、微軟和Meta在內(nèi)的AI機(jī)構(gòu),都在大規(guī)模使用NVIDIA GPU進(jìn)行模型訓(xùn)練。
字節(jié)跳動(dòng)同樣是全球GPU算力的重要采購方,隨著推薦算法、搜索系統(tǒng)以及生成式AI模型規(guī)模不斷擴(kuò)大,公司對高性能計(jì)算資源的需求持續(xù)增長。其云計(jì)算業(yè)務(wù)火山引擎近年來持續(xù)擴(kuò)建AI算力基礎(chǔ)設(shè)施,以支持模型訓(xùn)練和推理服務(wù)。
除了NVIDIA之外,多家芯片廠商也在試圖挑戰(zhàn)GPU市場格局,并在AI訓(xùn)練與推理市場展開競爭。
其中,AMD近年來在數(shù)據(jù)中心AI芯片領(lǐng)域加速追趕。
其MI300X架構(gòu)將CPU和GPU集成在同一封裝上,擁有1530億個(gè)晶體管和5.3TB/s的內(nèi)存帶寬,提供192GB的HBM3內(nèi)存(比H100多2.4倍)。
MI300系列被視為AMD在AI時(shí)代最重要的產(chǎn)品,目標(biāo)直指NVIDIA的H100市場。
與此同時(shí),英特爾則通過Gaudi系列AI加速器切入這一市場。
Gaudi2與Gaudi3芯片強(qiáng)調(diào)成本效率,并采用開放軟件棧SynapseAI,試圖在大型AI集群部署中提供更具性價(jià)比的替代方案。與傳統(tǒng)GPU相比,Gaudi架構(gòu)更加針對深度學(xué)習(xí)訓(xùn)練場景進(jìn)行優(yōu)化。
![]()
圖源:騰訊新聞
在中國市場,AI算力芯片競爭同樣日趨激烈。
華為推出昇騰系列AI處理器,其中昇騰910被廣泛應(yīng)用于國產(chǎn)AI訓(xùn)練平臺(tái)。根據(jù)新浪財(cái)經(jīng),業(yè)界估測910C在FP16精度下的單卡算力能達(dá)到800 TFLOPS左右,大概是英偉達(dá)H100 芯片(2022年推出)的80%。
寒武紀(jì)則推出思元系列AI芯片,主要面向云端推理與訓(xùn)練服務(wù)器市場,2022-2024年,其MLU370-X8及思元590芯片已與智象未來、百川智能等大模型客戶適配,進(jìn)入生成式AI算力供應(yīng)鏈。
與此同時(shí),多家創(chuàng)業(yè)公司也在布局AI算力賽道。
壁仞科技推出BR100等GPU產(chǎn)品,試圖在通用AI計(jì)算領(lǐng)域挑戰(zhàn)傳統(tǒng)GPU架構(gòu);燧原科技則開發(fā)邃思系列AI芯片,重點(diǎn)面向數(shù)據(jù)中心訓(xùn)練與推理市場。
在這一競爭格局下,全球AI芯片市場逐漸形成多條技術(shù)路線:既有NVIDIA主導(dǎo)的CUDA GPU生態(tài),也有AMD、Intel等廠商推動(dòng)的替代方案,同時(shí)中國廠商則試圖構(gòu)建本土AI算力體系。
不過,與這些芯片廠商不同,字節(jié)自研芯片并不追求通用市場,而是更多服務(wù)于內(nèi)部業(yè)務(wù)。
這種模式意味著字節(jié)不必從一開始就挑戰(zhàn)NVIDIA的生態(tài)體系,而可以在推理和特定場景中逐步積累技術(shù)能力。
因此,在未來相當(dāng)長一段時(shí)間內(nèi),“訓(xùn)練依賴GPU、推理逐步自研”很可能仍然是字節(jié)跳動(dòng)的主要算力策略。
03
全球互聯(lián)網(wǎng)公司造芯潮:字節(jié)跳動(dòng)處在什么位置
字節(jié)跳動(dòng)并不是唯一嘗試自研芯片的互聯(lián)網(wǎng)公司。
事實(shí)上,過去十多年間,隨著云計(jì)算與人工智能的發(fā)展,全球大型科技公司幾乎都在布局自研AI芯片,希望在關(guān)鍵算力資源上獲得更多控制權(quán)。
最早進(jìn)行這一嘗試的是谷歌。早在2016年,谷歌就推出了專門用于機(jī)器學(xué)習(xí)任務(wù)的TPU(Tensor Processing Unit),并持續(xù)迭代至TPU v4、TPU v5等多個(gè)版本。
TPU是谷歌為加速機(jī)器學(xué)習(xí)任務(wù)而設(shè)計(jì)的專用集成電路(ASIC),TPU的成功不僅顯著降低了其內(nèi)部AI計(jì)算成本,也證明互聯(lián)網(wǎng)公司完全有能力在特定場景設(shè)計(jì)高性能AI芯片。
隨后,亞馬遜也在其云計(jì)算平臺(tái)AWS中推出了多款自研AI芯片。
其中Inferentia主要面向機(jī)器學(xué)習(xí)推理任務(wù),而Trainium則面向大規(guī)模生成式AI模型訓(xùn)練與推理。這些芯片被廣泛部署在AWS云服務(wù)器中,以降低AI計(jì)算成本并提升平臺(tái)競爭力。
在中國市場,互聯(lián)網(wǎng)公司同樣開始探索自研算力體系。
阿里巴巴旗下平頭哥半導(dǎo)體推出含光系列AI芯片,其中含光800曾被應(yīng)用于阿里云數(shù)據(jù)中心的視頻處理與推薦系統(tǒng)中。
通過自研芯片,阿里希望在電商搜索及云計(jì)算AI服務(wù)等業(yè)務(wù)中降低算力成本。
從全球經(jīng)驗(yàn)來看,互聯(lián)網(wǎng)公司造芯往往并非只是為了成為傳統(tǒng)意義上的半導(dǎo)體廠商,而是為了優(yōu)化自身核心業(yè)務(wù)的算力結(jié)構(gòu)。
隨著AI模型規(guī)模持續(xù)擴(kuò)大,算力成本逐漸成為平臺(tái)運(yùn)營的重要變量,通過自研芯片,互聯(lián)網(wǎng)公司可以在部分場景中降低成本,同時(shí)減少對外部供應(yīng)商的依賴。
但與此同時(shí),芯片產(chǎn)業(yè)本身具有極高技術(shù)門檻,從架構(gòu)設(shè)計(jì)到制造工藝,再到軟件生態(tài)建設(shè),每一個(gè)環(huán)節(jié)都需要長期積累。
因此,從全球范圍來看,互聯(lián)網(wǎng)公司自研芯片往往與第三方芯片廠商形成互補(bǔ)關(guān)系:通用訓(xùn)練芯片依賴成熟供應(yīng)商,而特定場景則通過定制芯片實(shí)現(xiàn)效率優(yōu)化。
對于字節(jié)跳動(dòng)而言,這種模式或許也是最現(xiàn)實(shí)的路徑。
04
尾聲
芯片從來不僅是簡單的硬件采購問題,更象征了算力主權(quán)與產(chǎn)業(yè)話語權(quán)。
字節(jié)跳動(dòng)選擇在自研與外采之間尋找平衡,本質(zhì)上是一種風(fēng)險(xiǎn)分散與能力積累的策略。
當(dāng)AI模型規(guī)模繼續(xù)膨脹,算力成為真正的生產(chǎn)資料,誰能在生態(tài)鎖定與自主可控之間找到最佳區(qū)間,誰就可能掌握未來主動(dòng)權(quán)。
字節(jié)的芯片棋局遠(yuǎn)未落子成局,真正的拐點(diǎn),也許會(huì)在下一代架構(gòu)成熟時(shí)顯現(xiàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.