網易首頁 > 網易號 > 正文申請入駐

DeepSeek、月之暗面、MiniMax被點“非法提取”，它們做錯了嗎? | 電廠

2026-02-25 18:24:38　來源: 電廠

上海舉報

分享至

記者董溫淑

編輯高宇雷

當地時間2月23日，美國大模型公司Anthropic發布官方聲明，稱旗下大模型Claude遭到了中國模型企業DeepSeek（深度求索）、Moonshot（月之暗面）、MiniMax（稀宇科技）的“非法提取（illicitly extract）”。

2026開年不到3個月，這已是國產模型第二次陷入此類爭議。2月上旬流出的一份OpenAI備忘錄曾寫道，DeepSeek正借助ChatGPT及其他美國領先AI模型來進行自身訓練。

而本次Anthropic則披露了更多數據，據稱三家中國企業以約 2.4萬個欺詐賬戶與Claude進行了超1600萬次互動，并以這些對話信息作為訓練素材、改進了國產模型的性能。

點名三家企業隔天，Anthropic即開展了一場直播，展示Claude的最新能力。

與此同時，受到指控的國產三小龍則一片“靜悄悄”。迄今，DeepSeek、MiniMax、MoonShot對此均無回應。

三小龍撞上最“MAGA”的美國大模型

根據Anthropic聲明，DeepSeek、Moonshot、MiniMax所采用的技術手段名為“蒸餾（distill）”。

這種模型訓練手段可追溯至2015年，最早由諾獎得主、有“深度學習教父”之稱的Geoffrey Hinton及其團隊提出。

根據Anthropic指控，在蒸餾過程中，Claude被作為“教師模型”，DeepSeek、Moonshot、MiniMax通過與Claude進行大量交互，獲得輸出概率分布等信息。這些信息進而成為了DeepSeek等學生模型的模型訓練素材、使學生模型能夠以較小的數據樣本迅速學習“教師”的行為。

圖/視覺中國

就職北京一家大模型企業的Lulu告訴電廠：“蒸餾本身是常見的讓模型快速進化的手段。借助這個過程，蒸餾模型可以在短時間內迅速逼近被蒸餾模型的智力邊界，理論上得到的學生模型參數量也較小、推理速度更快。”

如其所言，頂尖的大模型廠商、AI實驗室常常在自研大版本模型的基礎上，蒸餾出更小版本模型。比如阿里巴巴團隊就在Qwen2大模型發布（2024年6月7日）5個月后，蒸餾出了DistilQwen2。

但除了自行蒸餾之外，許多大模型都將用戶或競品對自家模型的蒸餾定義為“竊取智能”的行為，并在服務條款中明確禁止了這種操作。比如Claude在其“隱私與法律”一節中就寫道：“（用戶）禁止在未獲書面許可的情況下將這些（Claude的）輸出用于訓練或開發 AI 模型”。

在聲明之中，Anthropic稱三家中國大模型公司所進行的輸入行為在“提示詞的數量、結構、焦點”方面，與正常使用模式截然不同。其中，DeepSeek與Claude進行了15萬次交換、Moonshot進行了340萬次交換、MiniMax進行了1300萬次交換。并且，Anthropic認為上述行為針對Claude最獨特的三大能力——代理推理、工具使用、編碼進行了有意提取。

基于這些觀察，Anthropic將三家公司的行為定義為“蒸餾攻擊（distillation attacks）”。

此外，長期以來Claude及其背后的公司Anthropic，都是對中國用戶及客戶最不“友好”的大模型公司之一。

Anthropic及其CEO Dario Amodei曾多次表態支持美國的出口管制政策。2025年9月，Claude曾特別更新其銷售地區限制，專門指出將不向位于“對手國家”中國，或是中資持股超50%的海外子公司提供Claude商業訪問渠道，隨后還禁用了大批中國用戶對Claude Code等工具的訪問權限。

圖/Anthropic

而在本次聲明中，Anthropic也指出，其認為DeepSeek、Moonshot和MiniMax通過商業代理繞開了Claude的禁用限制，進行了違法訪問，并呼吁其他美國AI企業、云服務商、政策制定者與其協同應對此類行為。

至此，這已不只是簡單的技術和商業問題，更融入了地緣角斗的時代背景。

有關技術、商業、地緣的復雜博弈

盡管迄今三家中國企業尚未回應Anthropic的公開聲明，此前他們已經多番陷入同類爭議，也曾以不同方式進行過回應。

從2023年開始，全球閉源AI大模型“三巨頭”OpenAI、Anthropic、Google陸續將禁止蒸餾的相關條款寫入使用協議。在那之后，有關中美之間的“模型蒸餾”爭議逐步發酵。

比如在2025年1月，曾有OpenAI研究人員稱DeepSeek可能使用了OpenAI模型的輸出來訓練R1大模型。DeepSeek則在9月登刊Nature的論文中回應這一猜測稱，其部分訓練數據源于網頁隨機抓取，“沒有故意加入OpenAI生成的合成數據”，并公開了相關技術細節。

2026年1月底，Moonshot新模型Kimi K2.5發布后，坊間也曾質疑其蒸餾自Claude。公司創始人楊植麟在一場Ask Me Anything活動中公開對此回應，否認了這種猜測。據他解釋，Kimi K2.5有時會在回答中提及Claude系因：“我們在預訓練中采樣了最新的互聯網數據，而這些數據與‘Claude’這個 token關聯較多。”

Moonshot公司創始人楊植麟，圖/視覺中國

但除了雙方的指控與自辨，如何確證模型蒸餾行為的存在、怎么定性模型蒸餾行為、是否涉及合同法/版權法/不正當競爭等法律問題……凡此種種，都還沒有明確的路徑可循。

另一方面，無論中美，各家大模型訓練時都從互聯網中爬取了無數語料。這些語料由萬千互聯網用戶生產，使用它們進行訓練是否涉及授權問題，同樣有待商榷。

“中國企業蒸餾美國模型”已被塑造為某種單向敘事。在較長一段時間內，有關“蒸餾”的爭議，都將是一場懸而未決的“輿論戰”。而這還將持續下去。

但值得一提的是無論產學界，對蒸餾技術的使用本身，從來都不只是某種單方行為。

中國多款領先的大模型系列都接受特定開源協議、允許蒸餾行為。

比如DeepSeek主要模型系列（如 DeepSeek-V2、V3、R1）遵循MIT許可證開源發布，允許學術研究和商業應用，用戶可自由下載模型權重進行本地部署或微調；MiniMax-M1、Kimi K2、阿里巴巴旗下Qwen3等系列模型遵循Apache 2.0許可證，允許用戶自由使用、修改、再發布、甚至將代碼直接用于閉源商業軟件，且無需支付費用等。

許多閉源模型同樣受益于此。比如據市場消息，美國科技巨頭Meta正秘密研發一款代號為“Avocado（牛油果）”的閉源模型，計劃于今春發布。

曾有知情人士透露，Meta在訓練Avocado時，會使用包括Qwen在內的多家第三方模型進行蒸餾。

從這一角度而言，對模型蒸餾的爭議也引出了模型開閉源路線之爭的老問題。

在這個缺乏產業秩序的新市場，技術先進程度不再是唯一的發展追求，生態、人才、法律、地緣等因素被一一疊加，競爭邏輯的維度不斷豐富。相較以往，每個市場玩家都更加迫切，希望筑好技術競爭力的圍墻，但也逃不開其他參與者的審視與圍觀。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.