![]()
對抗英偉達?成為英偉達。
日前,華為正式宣布開源其AI計算架構(gòu)CANN,并提出要打造“中國自己的CUDA”。結(jié)合此前“昇騰NPU改道GPGPU”的傳聞,此舉不僅進一步釋放出昇騰戰(zhàn)略轉(zhuǎn)向信號,同時也描摹出一幅“全面對標英偉達”的嶄新圖景。
從底層架構(gòu)變遷到上層生態(tài)重建,一夕之間換了新天。今天的昇騰,前路格外引人注目。
官宣:CANN開源號召共建昇騰生態(tài)
8月5日,華為輪值董事長徐直軍在昇騰計算產(chǎn)業(yè)發(fā)展峰會上宣布,華為昇騰硬件使能CANN全面開源開放,Mind系列應(yīng)用使能套件及工具鏈全面開源。
官宣消息顯示,這一舉措主要為了支持用戶自主的深度挖潛和自定義開發(fā),加速廣大開發(fā)者的創(chuàng)新步伐,讓昇騰更好用、更易用。“華為AI戰(zhàn)略的核心是算力,并堅持昇騰硬件變現(xiàn)。”
據(jù)悉,CANN全稱為“神經(jīng)網(wǎng)絡(luò)異構(gòu)計算架構(gòu)”,其直接對標對象正是英偉達的CUDA。對開發(fā)者來說,CANN是把上層AI訓(xùn)練框架(如PyTorch、TensorFlow、MindSpore)和底層昇騰芯片連接起來的橋梁,讓開發(fā)者不用關(guān)心芯片細節(jié)就能調(diào)用底層算力。
當然,相較于CUDA,CANN在開發(fā)者規(guī)模、架構(gòu)成熟度和生態(tài)完善度方面,均存在差距。這在很大程度上影響到昇騰芯片的易用性,用戶在生態(tài)路線選擇上更傾向于前者。
華為方面表示,公司與各界伙伴探討了如何更好地構(gòu)建昇騰生態(tài),并發(fā)起《CANN開源開放生態(tài)共建倡議》,以凝聚產(chǎn)業(yè)力量,共探AI邊界,共建昇騰生態(tài)。
顯然,華為希望通過開源CANN,吸引更多開發(fā)者擴大其生態(tài)圈,拉近與CUDA的差距,并以此彌補昇騰產(chǎn)品早期易用性不足的問題。
值得一提的是,業(yè)內(nèi)此前就傳出“昇騰NPU轉(zhuǎn)向GPGPU”的消息,并被視為國產(chǎn)ASIC芯片向主流技術(shù)路線靠攏的信號。此次CANN開源融入主流生態(tài),無疑再次驗證了這一點。
![]()
熱議:NPU留下的坑沒那么好填?
面對開源CANN發(fā)出的生態(tài)召集令,業(yè)界給出的反應(yīng)值得玩味。部分觀點頗為尖銳,認為昇騰NPU變道后會導(dǎo)致原有軟件棧無法維系更新,這時候開源CANN吸納開發(fā)者“惠而不費”。
有人將“昇騰轉(zhuǎn)型GPGPU”和“CANN開源”合并探討。“NPU走不下去了,原本基于NPU搞編譯器的組就要轉(zhuǎn)到基于GPGPU搞編譯器,那原來的CANN內(nèi)部沒精力優(yōu)先級維護了,正好放出來給‘冤大頭’們用。”
另外,也有觀點指出,開源是好事,問題在于NPU本來就沒有GPU好編程。“全國不知道能不能找得出來一百個寫昇騰算子寫得很六的,因此開源社區(qū)能對昇騰的生態(tài)做出多少貢獻我還是存疑。搞不好全是‘華子’自己的員工在上面commit。”
業(yè)內(nèi)對CANN的“戒心”,源于昇騰NPU一貫以來的封閉特點。
根據(jù)公開資料,NPU與GPGPU架構(gòu)存在根本技術(shù)差異,在場景應(yīng)用上的定位也完全不同。NPU若從此前的全定制化路線轉(zhuǎn)向通用GPGPU,新架構(gòu)體系幾乎無法復(fù)用之前的軟件棧(包括基礎(chǔ)環(huán)境、優(yōu)化的核心算子、編譯器等)。
“如果大量人員投入新架構(gòu)研發(fā),原有的NPU軟件棧更新可能會陷入停滯。”某業(yè)內(nèi)人士表示,這會導(dǎo)致后續(xù)的新模型或算法無法有效支持,不能充分發(fā)揮已采購芯片的價值,造成客戶投資虧損。“這時候引導(dǎo)開發(fā)者進駐CANN,相當于靠大家一起去‘填坑’。”
正值昇騰架構(gòu)更迭之際,內(nèi)有NPU架構(gòu)生態(tài)問題懸而未決,外有英偉達和國產(chǎn)GPGPU“珠玉在前”。也有部分開發(fā)者對此時開源的CANN態(tài)度十分保守。
前瞻:昇騰轉(zhuǎn)向GPGPU或成定局
盡管CANN生態(tài)前景存在不確定性,但昇騰轉(zhuǎn)向GPGPU幾乎已成定局。種種跡象表明,ASIC芯片并不適用于主流場景需求,NPU架構(gòu)路線甚至被一些媒體定義為“戰(zhàn)略方向性失誤”。
有專業(yè)人士分析,NPU和GPGPU相比,最大的問題在于軟件適配成本。“由于整個深度學(xué)習(xí)生態(tài)都建立在CUDA之上,最新的算法和嘗試也都基于英偉達的卡實現(xiàn)。將這些代碼遷移到NPU上,需要大量的時間和開發(fā)成本。”
據(jù)介紹,NPU和GPU本身的差異,導(dǎo)致需要特定的范式才能發(fā)揮出NPU全部的功能。比如gpu kernel需要用ascend-c定制,cpu launch kernel怕打斷、小內(nèi)存訪問低效等。
華為基于歷史慣性,一直力推自己的軟件棧(如Mindspeed-LLM、Mindspeed-RL、MindIE)。可惜具體到項目落地中效果并不理想,比如今年爆火的DeepSeek-GRPO,想要在NPU上進行GRPO訓(xùn)練,需要等待華為投入人力適配優(yōu)化,根本跟不上市場節(jié)奏。
上述人士指出,從1月底GRPO爆火,2月初英偉達就已經(jīng)有了社區(qū)的復(fù)現(xiàn)方案,到3月份verl都已經(jīng)基本成熟。而昇騰卡直到6月份,grpo還處于“湊合能用”的狀態(tài)。如果要跑其他強化學(xué)習(xí)算法(如DAPO、PPO等),在昇騰卡上還需要繼續(xù)等待。
相對來說,GPGPU提供了另一種完全不同的思路——根據(jù)NVIDIA GPU公開(解密)的接口制造兼容CUDA (PTX)的硬件,然后做好編譯器,提供cublus、cudnn等未開源的廠商定制庫。上層的軟件完全復(fù)用cuda的生態(tài)(Megatron-LM、vllm、verl、pytorch、flash-attention等)。
依托這種方案,用戶進行精度對齊和性能對齊變得非常簡便。由于接口完全一致,還可以使用自動化的程序找到精度和性能異常的bug,并進行修復(fù),極大地降低了開發(fā)成本。
“昇騰戰(zhàn)略轉(zhuǎn)向的目的正在于此”,業(yè)內(nèi)分析,華為需要借助GPGPU重新適應(yīng)AI時代需求趨勢。而CANN向開放者敞開懷抱,更大的可能是為其“換道超車”提供更多燃料。“問題在于,接下來會有多少用戶登上這駕戰(zhàn)車,更換架構(gòu)引擎后的昇騰又需要陪跑多少里程?”
作者:蒜力一姐
聲明:本文來源于網(wǎng)絡(luò),僅代表作者個人觀點,不代表“技術(shù)領(lǐng)導(dǎo)力”立場
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.