網易首頁 > 網易號 > 正文申請入駐

盤古大模型陷抄襲風波：站在巨人的肩膀，莫讓唯自研論反噬

2025-07-07 11:07:33　來源: 孫永杰的ICT評論

北京舉報

分享至

2025年7月5日下午，華為盤古大模型團隊通過官方渠道（如“昇騰CANN”微信公眾號）發布正式聲明，回應了近日圍繞其開源模型“盤古Pro MoE”是否抄襲阿里“通義千問 Qwen-2.5 14B”模型的爭議。聲明稱，盤古是基于昇騰硬件平臺自研訓練的混合專家模型，強調了“MoGE架構”創新，并否認抄襲。

而爭議的起點則是來自GitHub上名為HonestAGI用戶（該用戶目前已顯示404）發布的“LLM-Fingerprint”分析，該分析指出，盤古Pro MoE與Qwen?2.5?14B在注意力層參數上顯示出平均相關性為0.927，遠高于同行模型間的對比范圍，暗示可能其通過“升級改造”獲得，而非從零訓練，并在圈內引發盤古Pro MoE的抄襲質疑。

盤古團隊隨后在GitHub issue區進行技術回應，否認指控，并指出對比方法“不科學”。聲明強調遵守開源許可，部分基礎組件參考了開源實踐。

“驚人的0.927相關性”：參數高相似度是否等同于抄襲？

眾所周知，在模型訓練中，即使使用相同的開源數據集和相似的模型架構，由于初始化參數的隨機性、訓練過程中的隨機性（如dropout、數據洗牌順序等）以及不同的超參數設置，最終訓練出的模型參數幾乎不可能完全一致，這意味著，相關性達到0.927極不尋常，甚至遠遠超出了“巧合”可以解釋的范疇。

而這種極不尋常，通常只意味著兩種可能。一種是增量訓練（Continual Pre-training），即一方（例如華為盤古Pro MoE）在另一方已經訓練好的模型（例如Qwen-2.5 14B）基礎上，使用自己的數據繼續進行訓練，而這種做法會保留大部分原始模型的參數結構和數值特征，導致高度相似；另外一種則是參數復制或遷移，即華為直接或經過少量修改后，將Qwen-2.5 14B模型的參數用到了自家的盤古Pro MoE模型中。

不過，也有業內對此提出了不同的看法，例如導致參數相關性高的原因很多，類似的訓練目標、相近的模型規模，或設計上采用了類似的注意力機制等都可能產生參數的高相關性，尤其是在Transformer架構被廣泛共享的背景下。況且，若無明確代碼或權重直接復制記錄，僅憑統計參數相關性也無法斷定抄襲。

此外，上述“LLM-Fingerprint”的技術研究，似乎只關注了QKV參數相關性，缺乏對激活模式、訓練流程、數據來源等多維度分析，畢竟專業評估需要多層級、多模型對比、顯著統計差異分析，而非單一模型參數相關性的測算。

而華為盤古團隊認為對比方法“不科學”的解釋中似乎也點明了這點，同時強調了其“分組混合專家模型（MoGE）”架構的獨特性和創新性。

事實是，MoE（Mixture ofExperts）模型本身就是一種將大模型拆分成多個“專家”（子網絡或者模塊）的架構。如果盤古的MoGE架構在專家分組、路由機制等方面有顯著創新，那么即便某些基礎組件（如每個專家內部的Transformer塊）的實現參考了開源代碼，也不能完全等同于對整個模型的抄襲。

盡管如此，要想反駁抄襲的質疑，盤古團隊還理應透明地解釋其MoGE架構與Qwen-2.5的異同，并說明為何在上述架構存在獨特性和創新性的前提下，參數相似度還依然如此之高

遺憾的是，這些并未出現在盤古團隊的回復中，其也未詳細解釋“LLM-Fingerprint”的評估方法何以不科學，同時缺乏官方GitHub或其他平臺的完整聲明，進而導致華為的否認缺乏反證數據支撐，難以形成有力的回應。

化簡為繁：用戶無法證偽，華為不能證真

如上述，無論是盤古團隊回復中提及的“LLM-Fingerprint”分析的不科學，還是業內部分觀點認為，判斷盤古Pro MoE是否抄襲，需要多層級、多模型對比、顯著統計差異分析等的專業評估，都揭示出證偽的系統性和復雜性。

那么問題來了，我們能否僅在“LLM-Fingerprint”的層面（畢竟盤古團隊回復中所指出的不科學也僅限于此），即質疑方除了前述HonestAGI用戶采用的屬于“LLM-Fingerprint”的參數指紋（Parameter Fingerprint），還可以使用同屬于“LLM-Fingerprint”的其他驗證方式以增加質疑的權重和說服力；而華為也可以借此反駁質疑方的質疑，也是最直接和簡單的方法，同級驗證中的“一正一反”，質疑至少在同一技術層面的爭議中歸零。

這里我們需要簡單說明的是，HonestAGI提及的“LLM-Fingerprint”指的就是所謂的模型指紋（Model Fingerprinting），簡而言之，它是指通過一組可量化的特征或統計量，對一個機器學習模型（特別是大語言模型LLM）建立獨一無二的“身份識別”，類似于人類的指紋或設備的序列號，主要用來識別模型來源；檢測模型抄襲、篡改或未經授權的衍生；對模型“去匿名化”等，通常包括我們上述第一部分論述的，HonestAGI用戶采用的參數指紋外，還有行為指紋、輸出指紋、梯度指紋等。

不幸的是，除參數指紋外，對于用戶和社區來說，基于動態驗證方法的行為指紋、輸出指紋、梯度指紋等這些更強、更深層、更具解釋力的驗證手段都無法進行。

原因很簡單，盤古ProMoE既未開放完整模型權重，也沒有提供任何在線API、推理或DEMO接口。

注：白盒（White-box）：完全可見模型內部結構與參數，如模型權重

灰盒（Grey-box）：有限開放部分中間結果，如梯度、logits

黑盒（Black-box）：只開放輸入輸出接口，不公開模型內部結構

例如在華為官方介紹中，盤古大模型主要定位為企業級應用、昇騰硬件加速平臺上的基礎模型，聚焦政企行業解決方案，相關產品多以集成形式對外提供，未見單獨面向開發者或公眾的API服務開放；華為云官網雖然提供部分AI服務，但并未列出針對盤古ProMoE的API調用入口或開放平臺；華為ModelArts或其它云服務平臺未發現有盤古Pro MoE對外API。

而在開源平臺與模型庫中，盡管盤古Pro MoE的相關代碼和訓練框架在GitHub開源，但未提供推理API或在線服務Demo；至于相關社區也沒有發現公開可用的盤古Pro MoE Web Demo或API，開源愛好者和企業用戶均反映無法通過接口直接調用。

最后，據多個國內行業媒體報道，盤古Pro MoE面向昇騰芯片定制，且目前主要作為底層基礎模型，不對外提供單獨API。

這意味著僅在模型指紋領域，比基于靜態驗證方法的參數指紋更具說服力的其他基于“動態驗證方法”的模型指紋都被華為有意或者無意間所屏蔽，只剩下無需API，只要公開權重，即可對模型權重中特征矩陣的相似度進行靜態分析的參數指紋可用。

到此，我們認為，從用戶和社區端，想要再添加更有說服力的證據幾乎沒有可能，那么就如我們前面所述，華為自身能否通過除去其質疑不科學的參數指紋外，用其他模型指紋中的任何一種或幾種進行交叉驗證，來反駁能，且只能采用參數指紋進行驗證的用戶的質疑呢？

按理說這對于華為來說再簡單不過。

但隨之而來的問題是，如果華為真的自己去驗證，這種類似于既當運動員，又當裁判員的做法能否服眾？也許最客觀、公正的做法就是更加開放，例如對外開放自己的API和推理或DEMO接口，接受社區和用戶的檢驗，但這又和我們前述人家華為盤古Pro MoE多以集成形式對外提供服務的商業模式相悖。畢竟選擇何種商業模式是廠商的自由。

到這里，業內是否發現，無論是社區和用戶對于盤古Pro MoE的進一步證偽，還是華為反駁的自我證真，實際的操作非常簡單，但因為我們前述的理由卻變得異常復雜，且“合情合理”，而這種化簡為繁的操作，極有可能讓此次盤古Pro MoE的抄襲風波，成為用戶無法證偽，華為不能證真的游戲而不了了之。

站在巨人的肩膀：借鑒應有理有據有節，莫讓唯自研論反噬

曾幾何時，物理學巨匠艾薩克?牛頓在1675年寫給羅伯特?胡克的信中所言的：“如果我看得更遠，那是因為我站在巨人的肩膀上”成為科學精神的經典象征，傳達出一種謙遜、尊重前人、積累創新的價值觀。

而科技發展到今天，特別是在AI領域，完全從零開始構建一切已不現實，因為幾乎所有的研究和開發都是基于前人的努力或者成果。

例如Transformer架構（由谷歌2017年提出）已成為幾乎所有現代大模型的基礎。無論是GPT、BERT、LLaMA、通義千問還是盤古，都是在其之上的繼承和發展。而在開源日益流行的大模型領域更是如此。

這讓使用開源模型、開源數據集、參考優秀論文等的自我實現，已經成為行業常態。而在這種背景下，創新的核心其實已經從所謂零開始的完全自研，轉向是否提供了新的、有價值的東西。

以盤古Pro MoE為例，從其發布的論文看，面向自家的昇騰硬件就是其核心自主創新之一。因為針對特定硬件進行深度優化，本身就是重要的工程創新，可以提升訓練和推理效率；又如其MoGE架構，如果此架構確實如其所言，解決了大規模分布式訓練的負載均衡難題，無疑也是相當具有價值的架構創新。

但隨之而來的疑問是，如果盤古Pro MoE在架構和硬件適配上有如此重要的創新，為何還需要大量借鑒，甚至可能直接使用了Qwen的核心參數（按照HonestAGI用戶的參數指紋驗證）呢？

結合上述，我們認為，所謂針對昇騰硬件的優化嚴格來說只能算是“部署優化”，不涉及模型本身的原創性；而MoGE架構也僅是架構創新，所以二者能否支撐“盤古Pro MoE是完全獨立訓練的大模型”之說，依然值得商榷。

而提及盤古Pro MoE是完全獨立訓練的大模型，除了上述盤古Pro MoE的論文外，我們不得不再提及華為盤古團隊對于質疑的回應。

但問題的關鍵在于“使用”的程度，其并沒有詳細說明。

而在我們看來，如果使用僅僅是參考了某個函數的實現方式，或者使用了某些基礎庫，這在開源社區是完全正常且被鼓勵的，但如果是將一個模型的“核心資產”，即人家花費大量算力和數據訓練出來的權重參數進行“換皮”式使用，并聲稱是完全獨立訓練的大模型，那么即便在代碼層面標注了來源，法律上合規，但在道義和學術誠信上也會引發巨大爭議，尤其是在開源領域，這種道義和學術誠信上的爭議，對于相關企業，乃至中國開源領域都會造成不小的負面影響。

寫在最后：俗話說：“欲戴皇冠，必承其重”。當一家企業因為非市場因素的限制，而被部分業內和媒體頻頻冠以自研，且該企業借此收獲大量情緒價值，并能將其轉化為實際商業營收和利潤之時，該企業難免受到一定的影響。

例如明明某些領域、某些技術的核心來自供應商，該企業充其量是優化或者適配，卻被換上個高大上的名字或者艱澀難懂的所謂科技術語，搖身一變成為自研，久而久之，習慣成自然，自研被標簽化，仿佛不自研，該企業就不成活。但稍有業內常識的人都清楚，任何產業或者產品的創新和成功，都不可能憑借一家企業的自研之力可為之。

而此次盤古大模型陷抄襲風波足以提醒我們的企業，要么是真的自研，勇于接受市場的質疑和檢驗；要么在嚴格遵守相關行業或者產業協議和規則等的前提下，站在巨人的肩膀上去發展。否則，輿論長期停留在“猜測”與“對抗”之間，最終，不僅相關企業會被所謂的自研反噬，還會極大消耗中國科技產業及自主品牌的公信力和競爭力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.