2025年7月5日下午,華為盤古大模型團隊通過官方渠道(如“昇騰CANN”微信公眾號)發布正式聲明,回應了近日圍繞其開源模型“盤古Pro MoE”是否抄襲阿里“通義千問 Qwen-2.5 14B”模型的爭議。聲明稱,盤古是基于昇騰硬件平臺自研訓練的混合專家模型,強調了“MoGE架構”創新,并否認抄襲。
![]()
而爭議的起點則是來自GitHub上名為HonestAGI用戶(該用戶目前已顯示404)發布的“LLM-Fingerprint”分析,該分析指出,盤古Pro MoE與Qwen?2.5?14B在注意力層參數上顯示出平均相關性為0.927,遠高于同行模型間的對比范圍,暗示可能其通過“升級改造”獲得,而非從零訓練,并在圈內引發盤古Pro MoE的抄襲質疑。
盤古團隊隨后在GitHub issue區進行技術回應,否認指控,并指出對比方法“不科學”。聲明強調遵守開源許可,部分基礎組件參考了開源實踐。
“驚人的0.927相關性”:參數高相似度是否等同于抄襲?
眾所周知,在模型訓練中,即使使用相同的開源數據集和相似的模型架構,由于初始化參數的隨機性、訓練過程中的隨機性(如dropout、數據洗牌順序等)以及不同的超參數設置,最終訓練出的模型參數幾乎不可能完全一致,這意味著,相關性達到0.927極不尋常,甚至遠遠超出了“巧合”可以解釋的范疇。
![]()
而這種極不尋常,通常只意味著兩種可能。一種是增量訓練(Continual Pre-training),即一方(例如華為盤古Pro MoE)在另一方已經訓練好的模型(例如Qwen-2.5 14B)基礎上,使用自己的數據繼續進行訓練,而這種做法會保留大部分原始模型的參數結構和數值特征,導致高度相似;另外一種則是參數復制或遷移,即華為直接或經過少量修改后,將Qwen-2.5 14B模型的參數用到了自家的盤古Pro MoE模型中。
不過,也有業內對此提出了不同的看法,例如導致參數相關性高的原因很多,類似的訓練目標、相近的模型規模,或設計上采用了類似的注意力機制等都可能產生參數的高相關性,尤其是在Transformer架構被廣泛共享的背景下。況且,若無明確代碼或權重直接復制記錄,僅憑統計參數相關性也無法斷定抄襲。
此外,上述“LLM-Fingerprint”的技術研究,似乎只關注了QKV參數相關性,缺乏對激活模式、訓練流程、數據來源等多維度分析,畢竟專業評估需要多層級、多模型對比、顯著統計差異分析,而非單一模型參數相關性的測算。
而華為盤古團隊認為對比方法“不科學”的解釋中似乎也點明了這點,同時強調了其“分組混合專家模型(MoGE)”架構的獨特性和創新性。
![]()
事實是,MoE(Mixture ofExperts)模型本身就是一種將大模型拆分成多個“專家”(子網絡或者模塊)的架構。如果盤古的MoGE架構在專家分組、路由機制等方面有顯著創新,那么即便某些基礎組件(如每個專家內部的Transformer塊)的實現參考了開源代碼,也不能完全等同于對整個模型的抄襲。
盡管如此,要想反駁抄襲的質疑,盤古團隊還理應透明地解釋其MoGE架構與Qwen-2.5的異同,并說明為何在上述架構存在獨特性和創新性的前提下,參數相似度還依然如此之高
遺憾的是,這些并未出現在盤古團隊的回復中,其也未詳細解釋“LLM-Fingerprint”的評估方法何以不科學,同時缺乏官方GitHub或其他平臺的完整聲明,進而導致華為的否認缺乏反證數據支撐,難以形成有力的回應。
化簡為繁:用戶無法證偽,華為不能證真
如上述,無論是盤古團隊回復中提及的“LLM-Fingerprint”分析的不科學,還是業內部分觀點認為,判斷盤古Pro MoE是否抄襲,需要多層級、多模型對比、顯著統計差異分析等的專業評估,都揭示出證偽的系統性和復雜性。
那么問題來了,我們能否僅在“LLM-Fingerprint”的層面(畢竟盤古團隊回復中所指出的不科學也僅限于此),即質疑方除了前述HonestAGI用戶采用的屬于“LLM-Fingerprint”的參數指紋(Parameter Fingerprint),還可以使用同屬于“LLM-Fingerprint”的其他驗證方式以增加質疑的權重和說服力;而華為也可以借此反駁質疑方的質疑,也是最直接和簡單的方法,同級驗證中的“一正一反”,質疑至少在同一技術層面的爭議中歸零。
這里我們需要簡單說明的是,HonestAGI提及的“LLM-Fingerprint”指的就是所謂的模型指紋(Model Fingerprinting),簡而言之,它是指通過一組可量化的特征或統計量,對一個機器學習模型(特別是大語言模型LLM)建立獨一無二的“身份識別”,類似于人類的指紋或設備的序列號,主要用來識別模型來源;檢測模型抄襲、篡改或未經授權的衍生;對模型“去匿名化”等,通常包括我們上述第一部分論述的,HonestAGI用戶采用的參數指紋外,還有行為指紋、輸出指紋、梯度指紋等。
不幸的是,除參數指紋外,對于用戶和社區來說,基于動態驗證方法的行為指紋、輸出指紋、梯度指紋等這些更強、更深層、更具解釋力的驗證手段都無法進行。
原因很簡單,盤古ProMoE既未開放完整模型權重,也沒有提供任何在線API、推理或DEMO接口。
![]()
注:白盒(White-box):完全可見模型內部結構與參數,如模型權重
灰盒(Grey-box):有限開放部分中間結果,如梯度、logits
黑盒(Black-box):只開放輸入輸出接口,不公開模型內部結構
例如在華為官方介紹中,盤古大模型主要定位為企業級應用、昇騰硬件加速平臺上的基礎模型,聚焦政企行業解決方案,相關產品多以集成形式對外提供,未見單獨面向開發者或公眾的API服務開放;華為云官網雖然提供部分AI服務,但并未列出針對盤古ProMoE的API調用入口或開放平臺;華為ModelArts或其它云服務平臺未發現有盤古Pro MoE對外API。
而在開源平臺與模型庫中,盡管盤古Pro MoE的相關代碼和訓練框架在GitHub開源,但未提供推理API或在線服務Demo;至于相關社區也沒有發現公開可用的盤古Pro MoE Web Demo或API,開源愛好者和企業用戶均反映無法通過接口直接調用。
最后,據多個國內行業媒體報道,盤古Pro MoE面向昇騰芯片定制,且目前主要作為底層基礎模型,不對外提供單獨API。
這意味著僅在模型指紋領域,比基于靜態驗證方法的參數指紋更具說服力的其他基于“動態驗證方法”的模型指紋都被華為有意或者無意間所屏蔽,只剩下無需API,只要公開權重,即可對模型權重中特征矩陣的相似度進行靜態分析的參數指紋可用。
到此,我們認為,從用戶和社區端,想要再添加更有說服力的證據幾乎沒有可能,那么就如我們前面所述,華為自身能否通過除去其質疑不科學的參數指紋外,用其他模型指紋中的任何一種或幾種進行交叉驗證,來反駁能,且只能采用參數指紋進行驗證的用戶的質疑呢?
按理說這對于華為來說再簡單不過。
但隨之而來的問題是,如果華為真的自己去驗證,這種類似于既當運動員,又當裁判員的做法能否服眾?也許最客觀、公正的做法就是更加開放,例如對外開放自己的API和推理或DEMO接口,接受社區和用戶的檢驗,但這又和我們前述人家華為盤古Pro MoE多以集成形式對外提供服務的商業模式相悖。畢竟選擇何種商業模式是廠商的自由。
到這里,業內是否發現,無論是社區和用戶對于盤古Pro MoE的進一步證偽,還是華為反駁的自我證真,實際的操作非常簡單,但因為我們前述的理由卻變得異常復雜,且“合情合理”,而這種化簡為繁的操作,極有可能讓此次盤古Pro MoE的抄襲風波,成為用戶無法證偽,華為不能證真的游戲而不了了之。
站在巨人的肩膀:借鑒應有理有據有節,莫讓唯自研論反噬
曾幾何時,物理學巨匠艾薩克?牛頓在1675年寫給羅伯特?胡克的信中所言的:“如果我看得更遠,那是因為我站在巨人的肩膀上”成為科學精神的經典象征,傳達出一種謙遜、尊重前人、積累創新的價值觀。
而科技發展到今天,特別是在AI領域,完全從零開始構建一切已不現實,因為幾乎所有的研究和開發都是基于前人的努力或者成果。
例如Transformer架構(由谷歌2017年提出)已成為幾乎所有現代大模型的基礎。無論是GPT、BERT、LLaMA、通義千問還是盤古,都是在其之上的繼承和發展。而在開源日益流行的大模型領域更是如此。
這讓使用開源模型、開源數據集、參考優秀論文等的自我實現,已經成為行業常態。而在這種背景下,創新的核心其實已經從所謂零開始的完全自研,轉向是否提供了新的、有價值的東西。
以盤古Pro MoE為例,從其發布的論文看,面向自家的昇騰硬件就是其核心自主創新之一。因為針對特定硬件進行深度優化,本身就是重要的工程創新,可以提升訓練和推理效率;又如其MoGE架構,如果此架構確實如其所言,解決了大規模分布式訓練的負載均衡難題,無疑也是相當具有價值的架構創新。
但隨之而來的疑問是,如果盤古Pro MoE在架構和硬件適配上有如此重要的創新,為何還需要大量借鑒,甚至可能直接使用了Qwen的核心參數(按照HonestAGI用戶的參數指紋驗證)呢?
結合上述,我們認為,所謂針對昇騰硬件的優化嚴格來說只能算是“部署優化”,不涉及模型本身的原創性;而MoGE架構也僅是架構創新,所以二者能否支撐“盤古Pro MoE是完全獨立訓練的大模型”之說,依然值得商榷。
而提及盤古Pro MoE是完全獨立訓練的大模型,除了上述盤古Pro MoE的論文外,我們不得不再提及華為盤古團隊對于質疑的回應。
回應中,盤古團隊強調其“嚴格遵循開源許可證的要求,在開源代碼文件中清晰標注開源代碼的版權聲明”。這可以被解讀為,其承認使用了其他開源模型的代碼(可能包括Qwen),但認為自己的使用方式在法律上是合規的。
但問題的關鍵在于“使用”的程度,其并沒有詳細說明。
而在我們看來,如果使用僅僅是參考了某個函數的實現方式,或者使用了某些基礎庫,這在開源社區是完全正常且被鼓勵的,但如果是將一個模型的“核心資產”,即人家花費大量算力和數據訓練出來的權重參數進行“換皮”式使用,并聲稱是完全獨立訓練的大模型,那么即便在代碼層面標注了來源,法律上合規,但在道義和學術誠信上也會引發巨大爭議,尤其是在開源領域,這種道義和學術誠信上的爭議,對于相關企業,乃至中國開源領域都會造成不小的負面影響。
寫在最后:俗話說:“欲戴皇冠,必承其重”。當一家企業因為非市場因素的限制,而被部分業內和媒體頻頻冠以自研,且該企業借此收獲大量情緒價值,并能將其轉化為實際商業營收和利潤之時,該企業難免受到一定的影響。
例如明明某些領域、某些技術的核心來自供應商,該企業充其量是優化或者適配,卻被換上個高大上的名字或者艱澀難懂的所謂科技術語,搖身一變成為自研,久而久之,習慣成自然,自研被標簽化,仿佛不自研,該企業就不成活。但稍有業內常識的人都清楚,任何產業或者產品的創新和成功,都不可能憑借一家企業的自研之力可為之。
而此次盤古大模型陷抄襲風波足以提醒我們的企業,要么是真的自研,勇于接受市場的質疑和檢驗;要么在嚴格遵守相關行業或者產業協議和規則等的前提下,站在巨人的肩膀上去發展。否則,輿論長期停留在“猜測”與“對抗”之間,最終,不僅相關企業會被所謂的自研反噬,還會極大消耗中國科技產業及自主品牌的公信力和競爭力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.