網易首頁 > 網易號 > 正文申請入駐

讓 Anthropic 破防的「蒸餾」風波，美國 AI 大牛潑冷水：中國 AI 成功不靠走捷徑

2026-02-25 20:04:03　來源: AppSo

廣東舉報

分享至

Anthropic 昨天點名 DeepSeek、月之暗面、MiniMax 三家中國 AI 實驗室「蒸餾」Claude 模型，全網炸鍋。

對于此事件，RLHF （基于人類反饋的強化學習）領域最知名的研究者之一，《RLHF》一書的作者 Nathan Lambert 指出，這件事沒有人們想象的那么嚴重，但也沒有那么簡單。

他認為，中國 AI 公司的基礎設施非常好，取得了很多創新，也在攻克各種技術難題，但它們取得這樣的結果，靠的并不是「走捷徑」。

在討論蒸餾這件事之前，先看看 Lambert 的話為什么值得聽。

Nathan Lambert 是 Allen AI 研究所的科學家，博士畢業于加州大學伯克利分校，師從機器人領域的著名學者 Pieter Abbeel。他并非 RLHF 技術的發明者，但他寫的《RLHF》這本開源書籍，如今是 AI 從業者理解大模型訓練流程的標準參考材料之一。

和到處都是的 AI 網紅不一樣，他是真正上手訓練過大模型的人。

在 Anthropic 博客發出的當天，Lambert 就發布了一篇詳細分析文章《蒸餾對于中國大模型到底有多重要？》。他的核心論點，和主流媒體的解讀方向截然不同，也比一般網友更加深入和全面。

蒸餾是什么，Anthropic 又說了什么？

首先我們來看 Anthropic 指控的核心：「蒸餾」（distillation）。

它指的是讓弱模型學習強模型的輸出，從而快速獲得相似能力。

Anthropic 指控三家公司通過約 2.4 萬個虛假賬號，在違反服務條款和地區訪問限制的情況下，用 Claude 生成了超過 1600 萬次對話，用于訓練各自的模型。

博客還附上了安全警告：非法蒸餾出來的模型可能缺失原模型的安全護欄，一旦被用于網絡攻擊、生物武器研發或大規模監控，后果難以預測。

Anthropic 把這套基礎設施叫做「九頭蛇集群」(hydra cluster)——多達數萬個賬號的分布式網絡，流量同時分散在 Anthropic 自己的 API 和多個第三方 API 聚合平臺上。

在最極端的案例里，一個代理網絡同時管理超過 2 萬個虛假賬號，還把蒸餾流量混入普通用戶請求流里，用來規避檢測算法。這種網絡沒有單點故障，封掉一個賬號，馬上換一個。

海外媒體隨即跟進，復述了 Anthropic 的話術。然而這套敘事邏輯很快就翻車了：畢竟「蒸餾」這件事美國 AI 公司訓練的時候也會做，更何況 Anthropic 自己也有類似行為：

以及：

但 Lambert 更加冷靜，他認為要先把這三家中國 AI 實驗室分開來看。

Lambert 指出，Anthropic 把三家公司并排列在同一篇博客里，掩蓋了一個關鍵差異：它們做的根本不是同一件事，量級天差地別，動機也各有側重。

按照 Anthropic 的指控，DeepSeek 的蒸餾數量最少，只有 15 萬次，但手法更精準。與其直接收集答案，Anthropic 指控 DeepSeek 在做的是批量生產思維鏈 (chain-of-thought)訓練數據。

要的不是「你得出了什么結論」，而是得到結論的過程。

但 15 萬次是個什么體量？Lambert 認為，這點數據對 DeepSeek 傳聞中的 V4 模型或任何模型整體訓練的影響可以忽略不計，「更像是某個小團隊在內部做實驗，大概率連訓練負責人都不知道。」

月暗的規模就不是「可以忽略」了：340 萬次交互，目標集中在智能體推理、、工具調用、代碼與數據分析、computer-use 開發、計算機視覺等方向——這些方向當中，大部分都是 Claude 近期最受企業客戶歡迎的能力組合。

Anthropic 指出三家里流量最大的是 MiniMax，約 1300 萬次，目標是代理編碼、工具調用和復雜任務編排。

月暗和 MiniMax 相加約 1650 萬次，按對話平均 token 量估算，總量大約在 1500 億到 4000 億 token 之間，折合數百到上千萬美元的 token 成本。

但問題是，只盯著蒸餾看，其實有很大問題。

蒸餾的天花板在哪里？

這才是 Lambert 真正想說的部分，也是整件事里最被忽視的地方。

把強模型的輸出喂給弱模型，弱模型能快速獲得類似能力——這個邏輯本身成立，Lambert 沒有否認。但他指出了一個沒人說清楚的問題：蒸餾的天花板到底在哪里，取決于你想要的是什么類型的能力。

作為 RLHF 方面的專家，Lambert 認為，當前最頂尖的模型訓練，已經高度依賴強化學習（RL）。而 RL 和蒸餾在本質上是兩種不同的事情：

蒸餾是模仿，學強模型的輸出，把它的「答案形狀」復制過來；RL 是探索，模型必須大量自己推理、自己生成、在錯誤里反復迭代，從試錯中提煉能力。

換言之，真正強大的模型，需要的從來不只是正確答案，而往往要靠模型自己摸索出來的解題路徑，這是依靠蒸餾別人 API 的輸出，得不到的東西。

以 DeepSeek 自己做的蒸餾嘗試為例：基于隔壁千問蒸餾自家的 R1 模型后得到的 DeepSeek-R1-Distill-Qwen 1.5B 這個小模型，僅靠 7000 條樣本和極低的計算成本，就在 AIME24 數學競賽基準上超越了 OpenAI 的 o1-preview。

但關鍵在于：這個提升等多仰仗強化學習的結果，而非來自蒸餾這個行為本身。

換句話說，蒸餾能幫你更快「熱身」，要真正到達頂級水平，還是得靠自己跑 RL。

不同模型之間的數據分布差異

Lambert 還指出了一個技術層面很少被外界提及的問題：不同模型之間存在微妙的數據分布差異。

把 Claude 的輸出直接喂給另一個架構的模型，不一定有效，有時甚至會產生干擾。兩個模型內部表征空間的差異，會讓「老師」的回答在「學生」那里引發意想不到的偏差。

這意味著蒸餾從來不是「拿來用就行」的事，而是需要大量工程工作才能真正發揮效果。這本身就是一個研究課題。

這也是為什么 Lambert 將 Anthropic 所指控的「蒸餾」行為，看作是一種創新的做法，可以理解為試圖攻克這一研究課題的努力。

Anthropic 的殺手锏，恰恰最難蒸餾

Anthropic 點名的三家公司，抓取的重心都落在代理行為 (agentic behavior) 這同一個方向上，包括 AI 自主規劃、工具調用、分解復雜任務并逐步執行的能力等。

這是 Claude 目前最突出的方向，也是 Anthropic 最不想被復制的能力。

但 Lambert 的判斷是，這些能力恰恰也是最難通過蒸餾獲得的。

正如前面提到，一個強大的 AI agent，強大之處從來不在于知道或者訓練過正確答案，而是「在面對沒見過的情況時能自主探索出解決路徑」，可以理解為一種 0-shot 或 few-shot 實現 SOTA 效果的能力。

這個過程中產生的價值，體現在推理軌跡，而推理軌跡是很難通過蒸餾習得的——至少現在是這樣。

DeepSeek-R1-Distill（蒸餾模型）和 DeepSeek-R1（蒸餾對象）之間的差距，是 Lambert 論點最直接的例證。

在格式化的數學推理任務上，前者表現不錯；但在需要自主探索、動態規劃的復雜代理任務上，兩者的差距是真實存在的。

為什么 Anthropic 現在公開說

Lambert 有一個判斷，很多人可能都有同感：這次 Anthropic 公開點名中國 AI 公司，「技術防御」壓根不是首要動機。

在 Anthropic 這篇博客發出的幾天前，美國國防部剛剛威脅 Anthropic 配合提供「不受限制的使用權限」，否則就將做出對后者不利的安排，比如將其標記為「供應鏈危險」，也即無法進入國防/政府供應商名單。

Anthropic 現在處于一個「既要又要」的兩難境地：既想維持安全、不反人性的模型定位和公司形象，又不愿意錯過美國政府的大單。

Lambert 指出了一個根本矛盾：美國的學術界和開源模型開發者也在做蒸餾行為，但包括 Anthropic 在內的大廠并沒有對它們做出實質性的打擊。如果僅因為對方是中國公司，未免地緣的意味太重了。

結果就是，Anthropic 這篇博客與其說是報告一個重大技術風險事件……其實更像是一封「投名狀」。

雙標

關于 Anthropic 在這件事上的立場，有一個繞不開的背景。

APPSO 在昨天的文章里也有提到：

2024 年年初，美國某倉庫里，工人們把一本本新書送進機器，切掉書脊，掃描，然后把紙送去回收。下令做這件事的是 Anthropic，項目內部代號「巴拿馬」，目標是以破壞性方式掃描全球所有書籍——Anthropic不希望外界知道他們做了這件事。

2021 年，Anthropic 聯合創始人 Ben Mann 在 11 天里從盜版網站 LibGen 下載了大量侵權書籍；次年，另一個公開宣稱「在大多數國家故意違反版權法」的網站 Pirate Library Mirror 上線，Mann 把鏈接發給同事，留言：「來得正是時候！！！」

在后來的書籍版權訴訟中，Anthropic 被迫支付 15 億美元和解金，折算下來每本書約賠 3000 美元。

斯坦福和耶魯的研究者發現，Claude 3.7 Sonnet 在特定條件下會以 95.8% 的準確率「近乎逐字逐句」地輸出《哈利波特》等受版權保護的作品——這不僅與 Anthropic 長期以來關于「模型只是學習了語言規律」的說法背道而馳，更讓該公司對任何人的「蒸餾」指控顯得缺乏底氣。

Futurism 的標題寫得很直接：「Anthropic 對 DeepSeek 未經授權復制 AI 大發雷霆——考慮到它是怎么構建 Claude 的，這相當諷刺。」

Musk 在 X 上也補了一刀：「Anthropic 大規模竊取訓練數據，還為此支付了數十億美元的和解金。這是事實。」

反駁者還有一個更尖銳的邏輯：Anthropic 當年從那些書里拿走的，不僅沒付過任何使用費，回頭還用于商業行為（Claude 和 Anthropic API 都是付費服務）；而從商業角度來看，蒸餾 Claude 的公司至少付了錢……

當然，從法律層面來看，這兩件事的性質完全不同。但不論怎樣，Anthropic 看起來還是很像個偽善的雙標者。

「后蒸餾時代」

最后再強調一遍：蒸餾有用，但沒有你們想象的那么有用。

DeepSeek 的 15 萬次，按任何合理標準來看都是可以忽略的數字。Moonshot 和 MiniMax 合計 1650 萬次，量級是另一回事——但能轉化成多少真實能力，取決于他們能不能解決「如何用好這些數據」的技術問題。

考慮到數據分布差異、模型架構差異，以及代理能力的獲得本身對于強化學習的重度依賴，蒸餾從來不是「拿來就用」那么簡單。

Lambert 還是給了 Anthropic 面子：「快速迭代加上高質量數據可以走很遠，讓學生模型超越老師也并非不可能。」

但他也明確指出，真正的創新靠的是強化學習，不是蒸餾。從 DeepSeek、月暗、MiniMax 公開的論文來看，它們都用有相當完善的基礎設施和優秀的人才，遠非只靠小聰明小伎倆企圖彎道超車的「小作坊」。

蒸餾能幫你更快入場，但真要打到頂級水平，從來沒有捷徑。

某種意義上，Anthropic 提出的「蒸餾」爭議，本身就是這個 AI 時代縮影。

整個行業打一開始就建立在曖昧不清的規則上：用人類寫的東西訓練，用別人的開源成果迭代，在法律沒有明確禁止的地方快速行動。

現在，規則開始慢慢收緊——先是版權，再是芯片，現在又是 API……誰在制定規則？誰受益于規則？誰一邊打著人類的旗號，卻濫用規則謀求私利？

這些問題的答案，都越來越清晰。

附上參考地址：

https://www.interconnects.ai/p/how-much-does-distillation-really

歡迎加入 APPSO AI 社群，一起暢聊 AI 產品，獲取，解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Anthropic用70種語言問了8萬人同一個問題：你想要AI為你做什么？

DeepTech深科技 2026-03-20 20:48:41
0 跟貼 0
專訪OpenAI首席科學家：我們離“AI自己做研究”有多遠？

DeepTech深科技 2026-03-21 22:57:35
0 跟貼 0

王興興跑得快，未必跑得遠

虎嗅APP 2026-03-22 03:11:05
0 跟貼 0

北大畢業送外賣，為啥開始搶普通人的飯碗？高學歷也開始卷流量？

曹媽媽在美國 2026-03-21 09:00:00
26 跟貼 26
Anthropic逼急奧特曼：自砍副業，死磕Claude主場

新智元 2026-03-18 07:54:22
6 跟貼 6

對于有人說倫巴是吃飯砸鍋的，張倫巴并不認同

春風自如 2026-03-21 08:43:05
0 跟貼 0

據說前陣子她直接累暈倒了，這人是超級卷王，為了流量不擇手段

栗子生活醬 2026-03-21 15:07:19
0 跟貼 0
剛剛，世界傳來五大重磅消息！

大國見聞錄 2026-03-21 17:51:17
0 跟貼 0

廣西普通話自帶流量，太搞笑了！

金碩故事匯 2026-03-18 10:20:56
0 跟貼 0
百家流量扶持計劃：無人機糊臉殺，T-72坦克掃雷犁沖鋒停擺！

一身骨子里的傲氣 2026-03-21 18:21:35
0 跟貼 0
全網唯一零差評網紅，粉絲千萬，流量潑天，卻沒人想做第二個他

暖心萌阿菇涼 2026-03-21 03:39:12
1 跟貼 1
百家流量扶持計劃：無人機改寫戰場規則，無防護時代坦克難逃生

一身骨子里的傲氣 2026-03-21 14:08:00
0 跟貼 0
伊朗突襲利雅得煉油廠，美專屬區遭重創，國際輿論沸騰

像風走了八萬里不問歸期 2026-03-21 02:53:08
0 跟貼 0
肖戰撕碎流量

一文熱點捕手 2026-03-19 20:50:27
0 跟貼 0
究竟是物理防曬厲害，還是化學防曬更勝一籌，結果讓人意外！

沙雕小分隊 2026-03-20 16:25:57
38 跟貼 38
北大畢業送外賣，美團澄清就送了5單，你在同情他，他在博流量

照理說事 2026-03-19 12:47:52
6 跟貼 6
一塊石頭封鎖美國15年，致敬中國晶體之父！

龍眼嘮生活 2026-03-22 00:35:36
0 跟貼 0
澤連斯基發現不對勁，美以打伊朗，烏克蘭成了最大受害者

看盡人間百態 2026-03-22 03:31:55
1 跟貼 1
張子楓不搶熱搜、不炒流量，00后影后憑“活人演技”封神內娛

誤落風塵 2026-03-21 07:43:35
1 跟貼 1
全市第一考進北大，畢業送外賣，是自我救贖還是流量劇本？

封面新聞 2026-03-20 13:51:40
0 跟貼 0
國際最新五大消息，全都是大事！

大國見聞錄 2026-03-20 21:37:21
0 跟貼 0
特朗普鐵桿眾議員：反對追加撥款，受夠軍工復合體

愈來愈好 2026-03-21 00:54:08
0 跟貼 0
國際兩大消息

大國見聞錄 2026-03-20 21:37:09
0 跟貼 0
5歲賺20億，12歲演宮斗：別讓流量，偷走孩子的童年

大眼睛看看 2026-03-20 08:37:37
1 跟貼 1
訪美國結束！今晨抵達臺灣省！盧秀燕：結果超乎預期！

老白者乎 2026-03-22 03:09:08
0 跟貼 0
以為是流量小生，沒想到只是小生！！

芒果眾娛 2026-03-21 14:08:57
0 跟貼 0
北大畢業生來跑外賣？拿底層人苦難來博流量，十分可惡該被封殺

慢半拍sir 2026-03-19 18:25:05
0 跟貼 0
搖滾動物園3小時“最短代言”：流量狂歡下的品牌失格

清揚君 2026-03-20 09:24:21
7 跟貼 7
大氣者有容人之量，方能成大器！

松林侃世界 2026-03-20 17:21:55
1 跟貼 1
百家流量扶持計劃這個我兄弟打得過嗎

讓你大開眼界 2026-03-20 12:36:06
0 跟貼 0
劉家峽水庫加大出庫流量全力保障春灌

新華社 2026-03-21 20:08:11
0 跟貼 0
百家流量扶持計劃這和鬼子進村有區別嗎

讓你大開眼界 2026-03-20 02:13:15
0 跟貼 0
家門口的墻上，突然出現標記符號！怎么辦？

記者李喜喆 2026-03-20 18:34:53
0 跟貼 0
找伴侶和做投資，邏輯一模一樣

光輝視角 2026-03-19 14:03:44
1 跟貼 1
“媽，門口要錢，我們就不進去看你了”，游客在壺口瀑布外拍視頻被投訴侵權，山西壺口瀑布景區：事發地是陜西壺口瀑布，我們也是受害者

觀威海 2026-03-18 14:47:02
35938 跟貼 35938
達利歐：霍爾木茲海峽大決戰即將爆發

極目新聞 2026-03-21 16:52:14
18016 跟貼 18016
成品油價即將迎來“五連漲”，下周一加滿一箱油可能將多花80元，周末記得加滿油

揚子晚報 2026-03-21 07:37:10
28740 跟貼 28740
幾個人偷懶不請機器，自己挖泥省錢，還自制了工具！

趣萌生活館 2026-03-20 14:15:20
1 跟貼 1
真是一個不錯的機器，讓工作人員省不少的力

小帥趣聞 2026-03-20 11:01:32
1 跟貼 1
普遍漲價5000，新一代SU7只漲4000，2026新車定價的深層邏輯

路咖汽車 2026-03-20 17:15:15
0 跟貼 0

AppSo

讓智能手機更好用的秘密

6208文章數 26797關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

本地

親子

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

讓 Anthropic 破防的「蒸餾」風波，美國 AI 大牛潑冷水：中國 AI 成功不靠走捷徑

宇樹招股書拆解，人形機器人出貨量第一！

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

誰在決定字母哥未來？

田栩寧終于涼了？出軌風波影響惡劣

通脹警報拉響，加息潮要來了？

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態度原創

全城狂送1000杯咖啡！網易房產【早C計劃】，即刻啟動！

春色滿城關不住｜紹興春日頂流，這片櫻花海藏不住了

特朗普:正考慮逐步降級對伊朗的軍事行動

伊朗發射3800公里射程的導彈最令美軍戰栗的細節披露

伊朗發射3800公里射程的導彈最令美軍戰栗的細節披露

小鵬汽車2025年Q4盈利凈賺3.8億全年營收767億