華為開源CANN，再次釋放“昇騰轉(zhuǎn)向”信號

2025-08-07 18:30:42　來源: 技術(shù)領(lǐng)導(dǎo)力

上海舉報

分享至

對抗英偉達？成為英偉達。

日前，華為正式宣布開源其AI計算架構(gòu)CANN，并提出要打造“中國自己的CUDA”。結(jié)合此前“昇騰NPU改道GPGPU”的傳聞，此舉不僅進一步釋放出昇騰戰(zhàn)略轉(zhuǎn)向信號，同時也描摹出一幅“全面對標英偉達”的嶄新圖景。

從底層架構(gòu)變遷到上層生態(tài)重建，一夕之間換了新天。今天的昇騰，前路格外引人注目。

官宣：CANN開源號召共建昇騰生態(tài)

8月5日，華為輪值董事長徐直軍在昇騰計算產(chǎn)業(yè)發(fā)展峰會上宣布，華為昇騰硬件使能CANN全面開源開放，Mind系列應(yīng)用使能套件及工具鏈全面開源。

官宣消息顯示，這一舉措主要為了支持用戶自主的深度挖潛和自定義開發(fā)，加速廣大開發(fā)者的創(chuàng)新步伐，讓昇騰更好用、更易用。“華為AI戰(zhàn)略的核心是算力，并堅持昇騰硬件變現(xiàn)。”

據(jù)悉，CANN全稱為“神經(jīng)網(wǎng)絡(luò)異構(gòu)計算架構(gòu)”，其直接對標對象正是英偉達的CUDA。對開發(fā)者來說，CANN是把上層AI訓(xùn)練框架（如PyTorch、TensorFlow、MindSpore）和底層昇騰芯片連接起來的橋梁，讓開發(fā)者不用關(guān)心芯片細節(jié)就能調(diào)用底層算力。

當然，相較于CUDA，CANN在開發(fā)者規(guī)模、架構(gòu)成熟度和生態(tài)完善度方面，均存在差距。這在很大程度上影響到昇騰芯片的易用性，用戶在生態(tài)路線選擇上更傾向于前者。

華為方面表示，公司與各界伙伴探討了如何更好地構(gòu)建昇騰生態(tài)，并發(fā)起《CANN開源開放生態(tài)共建倡議》，以凝聚產(chǎn)業(yè)力量，共探AI邊界，共建昇騰生態(tài)。

顯然，華為希望通過開源CANN，吸引更多開發(fā)者擴大其生態(tài)圈，拉近與CUDA的差距，并以此彌補昇騰產(chǎn)品早期易用性不足的問題。

值得一提的是，業(yè)內(nèi)此前就傳出“昇騰NPU轉(zhuǎn)向GPGPU”的消息，并被視為國產(chǎn)ASIC芯片向主流技術(shù)路線靠攏的信號。此次CANN開源融入主流生態(tài)，無疑再次驗證了這一點。

熱議：NPU留下的坑沒那么好填？

面對開源CANN發(fā)出的生態(tài)召集令，業(yè)界給出的反應(yīng)值得玩味。部分觀點頗為尖銳，認為昇騰NPU變道后會導(dǎo)致原有軟件棧無法維系更新，這時候開源CANN吸納開發(fā)者“惠而不費”。

有人將“昇騰轉(zhuǎn)型GPGPU”和“CANN開源”合并探討。“NPU走不下去了，原本基于NPU搞編譯器的組就要轉(zhuǎn)到基于GPGPU搞編譯器，那原來的CANN內(nèi)部沒精力優(yōu)先級維護了，正好放出來給‘冤大頭’們用。”

另外，也有觀點指出，開源是好事，問題在于NPU本來就沒有GPU好編程。“全國不知道能不能找得出來一百個寫昇騰算子寫得很六的，因此開源社區(qū)能對昇騰的生態(tài)做出多少貢獻我還是存疑。搞不好全是‘華子’自己的員工在上面commit。”

業(yè)內(nèi)對CANN的“戒心”，源于昇騰NPU一貫以來的封閉特點。

根據(jù)公開資料，NPU與GPGPU架構(gòu)存在根本技術(shù)差異，在場景應(yīng)用上的定位也完全不同。NPU若從此前的全定制化路線轉(zhuǎn)向通用GPGPU，新架構(gòu)體系幾乎無法復(fù)用之前的軟件棧（包括基礎(chǔ)環(huán)境、優(yōu)化的核心算子、編譯器等）。

“如果大量人員投入新架構(gòu)研發(fā)，原有的NPU軟件棧更新可能會陷入停滯。”某業(yè)內(nèi)人士表示，這會導(dǎo)致后續(xù)的新模型或算法無法有效支持，不能充分發(fā)揮已采購芯片的價值，造成客戶投資虧損。“這時候引導(dǎo)開發(fā)者進駐CANN，相當于靠大家一起去‘填坑’。”

正值昇騰架構(gòu)更迭之際，內(nèi)有NPU架構(gòu)生態(tài)問題懸而未決，外有英偉達和國產(chǎn)GPGPU“珠玉在前”。也有部分開發(fā)者對此時開源的CANN態(tài)度十分保守。

前瞻：昇騰轉(zhuǎn)向GPGPU或成定局

盡管CANN生態(tài)前景存在不確定性，但昇騰轉(zhuǎn)向GPGPU幾乎已成定局。種種跡象表明，ASIC芯片并不適用于主流場景需求，NPU架構(gòu)路線甚至被一些媒體定義為“戰(zhàn)略方向性失誤”。

有專業(yè)人士分析，NPU和GPGPU相比，最大的問題在于軟件適配成本。“由于整個深度學(xué)習(xí)生態(tài)都建立在CUDA之上，最新的算法和嘗試也都基于英偉達的卡實現(xiàn)。將這些代碼遷移到NPU上，需要大量的時間和開發(fā)成本。”

據(jù)介紹，NPU和GPU本身的差異，導(dǎo)致需要特定的范式才能發(fā)揮出NPU全部的功能。比如gpu kernel需要用ascend-c定制，cpu launch kernel怕打斷、小內(nèi)存訪問低效等。

華為基于歷史慣性，一直力推自己的軟件棧（如Mindspeed-LLM、Mindspeed-RL、MindIE）。可惜具體到項目落地中效果并不理想，比如今年爆火的DeepSeek-GRPO，想要在NPU上進行GRPO訓(xùn)練，需要等待華為投入人力適配優(yōu)化，根本跟不上市場節(jié)奏。

上述人士指出，從1月底GRPO爆火，2月初英偉達就已經(jīng)有了社區(qū)的復(fù)現(xiàn)方案，到3月份verl都已經(jīng)基本成熟。而昇騰卡直到6月份，grpo還處于“湊合能用”的狀態(tài)。如果要跑其他強化學(xué)習(xí)算法（如DAPO、PPO等），在昇騰卡上還需要繼續(xù)等待。

相對來說，GPGPU提供了另一種完全不同的思路——根據(jù)NVIDIA GPU公開(解密)的接口制造兼容CUDA (PTX)的硬件，然后做好編譯器，提供cublus、cudnn等未開源的廠商定制庫。上層的軟件完全復(fù)用cuda的生態(tài)（Megatron-LM、vllm、verl、pytorch、flash-attention等）。

依托這種方案，用戶進行精度對齊和性能對齊變得非常簡便。由于接口完全一致，還可以使用自動化的程序找到精度和性能異常的bug，并進行修復(fù)，極大地降低了開發(fā)成本。

“昇騰戰(zhàn)略轉(zhuǎn)向的目的正在于此”，業(yè)內(nèi)分析，華為需要借助GPGPU重新適應(yīng)AI時代需求趨勢。而CANN向開放者敞開懷抱，更大的可能是為其“換道超車”提供更多燃料。“問題在于，接下來會有多少用戶登上這駕戰(zhàn)車，更換架構(gòu)引擎后的昇騰又需要陪跑多少里程？”

作者：蒜力一姐

聲明：本文來源于網(wǎng)絡(luò)，僅代表作者個人觀點，不代表“技術(shù)領(lǐng)導(dǎo)力”立場

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.