![]()
記者 董溫淑
編輯 高宇雷
當地時間2月23日,美國大模型公司Anthropic發布官方聲明,稱旗下大模型Claude遭到了中國模型企業DeepSeek(深度求索)、Moonshot(月之暗面)、MiniMax(稀宇科技)的“非法提取(illicitly extract)”。
2026開年不到3個月,這已是國產模型第二次陷入此類爭議。2月上旬流出的一份OpenAI備忘錄曾寫道,DeepSeek正借助ChatGPT及其他美國領先AI模型來進行自身訓練。
而本次Anthropic則披露了更多數據,據稱三家中國企業以約 2.4萬個欺詐賬戶與Claude進行了超1600萬次互動,并以這些對話信息作為訓練素材、改進了國產模型的性能。
點名三家企業隔天,Anthropic即開展了一場直播,展示Claude的最新能力。
與此同時,受到指控的國產三小龍則一片“靜悄悄”。迄今,DeepSeek、MiniMax、MoonShot對此均無回應。
![]()
三小龍撞上最“MAGA”的美國大模型
根據Anthropic聲明,DeepSeek、Moonshot、MiniMax所采用的技術手段名為“蒸餾(distill)”。
這種模型訓練手段可追溯至2015年,最早由諾獎得主、有“深度學習教父”之稱的Geoffrey Hinton及其團隊提出。
根據Anthropic指控,在蒸餾過程中,Claude被作為“教師模型”,DeepSeek、Moonshot、MiniMax通過與Claude進行大量交互,獲得輸出概率分布等信息。這些信息進而成為了DeepSeek等學生模型的模型訓練素材、使學生模型能夠以較小的數據樣本迅速學習“教師”的行為。
![]()
圖/視覺中國
就職北京一家大模型企業的Lulu告訴電廠:“蒸餾本身是常見的讓模型快速進化的手段。借助這個過程,蒸餾模型可以在短時間內迅速逼近被蒸餾模型的智力邊界,理論上得到的學生模型參數量也較小、推理速度更快。”
如其所言,頂尖的大模型廠商、AI實驗室常常在自研大版本模型的基礎上,蒸餾出更小版本模型。比如阿里巴巴團隊就在Qwen2大模型發布(2024年6月7日)5個月后,蒸餾出了DistilQwen2。
但除了自行蒸餾之外,許多大模型都將用戶或競品對自家模型的蒸餾定義為“竊取智能”的行為,并在服務條款中明確禁止了這種操作。比如Claude在其“隱私與法律”一節中就寫道:“(用戶)禁止在未獲書面許可的情況下將這些(Claude的)輸出用于訓練或開發 AI 模型”。
在聲明之中,Anthropic稱三家中國大模型公司所進行的輸入行為在“提示詞的數量、結構、焦點”方面,與正常使用模式截然不同。其中,DeepSeek與Claude進行了15萬次交換、Moonshot進行了340萬次交換、MiniMax進行了1300萬次交換。并且,Anthropic認為上述行為針對Claude最獨特的三大能力——代理推理、工具使用、編碼進行了有意提取。
基于這些觀察,Anthropic將三家公司的行為定義為“蒸餾攻擊(distillation attacks)”。
此外,長期以來Claude及其背后的公司Anthropic,都是對中國用戶及客戶最不“友好”的大模型公司之一。
Anthropic及其CEO Dario Amodei曾多次表態支持美國的出口管制政策。2025年9月,Claude曾特別更新其銷售地區限制,專門指出將不向位于“對手國家”中國,或是中資持股超50%的海外子公司提供Claude商業訪問渠道,隨后還禁用了大批中國用戶對Claude Code等工具的訪問權限。
![]()
圖/Anthropic
而在本次聲明中,Anthropic也指出,其認為DeepSeek、Moonshot和MiniMax通過商業代理繞開了Claude的禁用限制,進行了違法訪問,并呼吁其他美國AI企業、云服務商、政策制定者與其協同應對此類行為。
至此,這已不只是簡單的技術和商業問題,更融入了地緣角斗的時代背景。
![]()
有關技術、商業、地緣的復雜博弈
盡管迄今三家中國企業尚未回應Anthropic的公開聲明,此前他們已經多番陷入同類爭議,也曾以不同方式進行過回應。
從2023年開始,全球閉源AI大模型“三巨頭”OpenAI、Anthropic、Google陸續將禁止蒸餾的相關條款寫入使用協議。在那之后,有關中美之間的“模型蒸餾”爭議逐步發酵。
比如在2025年1月,曾有OpenAI研究人員稱DeepSeek可能使用了OpenAI模型的輸出來訓練R1大模型。DeepSeek則在9月登刊Nature的論文中回應這一猜測稱,其部分訓練數據源于網頁隨機抓取,“沒有故意加入OpenAI生成的合成數據”,并公開了相關技術細節。
2026年1月底,Moonshot新模型Kimi K2.5發布后,坊間也曾質疑其蒸餾自Claude。公司創始人楊植麟在一場Ask Me Anything活動中公開對此回應,否認了這種猜測。據他解釋,Kimi K2.5有時會在回答中提及Claude系因:“我們在預訓練中采樣了最新的互聯網數據,而這些數據與‘Claude’這個 token關聯較多。”
![]()
Moonshot公司創始人楊植麟,圖/視覺中國
但除了雙方的指控與自辨,如何確證模型蒸餾行為的存在、怎么定性模型蒸餾行為、是否涉及合同法/版權法/不正當競爭等法律問題……凡此種種,都還沒有明確的路徑可循。
另一方面,無論中美,各家大模型訓練時都從互聯網中爬取了無數語料。這些語料由萬千互聯網用戶生產,使用它們進行訓練是否涉及授權問題,同樣有待商榷。
“中國企業蒸餾美國模型”已被塑造為某種單向敘事。在較長一段時間內,有關“蒸餾”的爭議,都將是一場懸而未決的“輿論戰”。而這還將持續下去。
但值得一提的是無論產學界,對蒸餾技術的使用本身,從來都不只是某種單方行為。
中國多款領先的大模型系列都接受特定開源協議、允許蒸餾行為。
比如DeepSeek主要模型系列(如 DeepSeek-V2、V3、R1)遵循MIT許可證開源發布,允許學術研究和商業應用,用戶可自由下載模型權重進行本地部署或微調;MiniMax-M1、Kimi K2、阿里巴巴旗下Qwen3等系列模型遵循Apache 2.0許可證,允許用戶自由使用、修改、再發布、甚至將代碼直接用于閉源商業軟件,且無需支付費用等。
許多閉源模型同樣受益于此。比如據市場消息,美國科技巨頭Meta正秘密研發一款代號為“Avocado(牛油果)”的閉源模型,計劃于今春發布。
曾有知情人士透露,Meta在訓練Avocado時,會使用包括Qwen在內的多家第三方模型進行蒸餾。
從這一角度而言,對模型蒸餾的爭議也引出了模型開閉源路線之爭的老問題。
在這個缺乏產業秩序的新市場,技術先進程度不再是唯一的發展追求,生態、人才、法律、地緣等因素被一一疊加,競爭邏輯的維度不斷豐富。相較以往,每個市場玩家都更加迫切,希望筑好技術競爭力的圍墻,但也逃不開其他參與者的審視與圍觀。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.