337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

讓 Anthropic 破防的「蒸餾」風波,美國 AI 大牛潑冷水:中國 AI 成功不靠走捷徑

0
分享至

Anthropic 昨天點名 DeepSeek、月之暗面、MiniMax 三家中國 AI 實驗室「蒸餾」Claude 模型,全網炸鍋。

對于此事件,RLHF (基于人類反饋的強化學習)領域最知名的研究者之一,《RLHF》一書的作者 Nathan Lambert 指出,這件事沒有人們想象的那么嚴重,但也沒有那么簡單。

他認為,中國 AI 公司的基礎設施非常好,取得了很多創新,也在攻克各種技術難題,但它們取得這樣的結果,靠的并不是「走捷徑」。

在討論蒸餾這件事之前,先看看 Lambert 的話為什么值得聽。

Nathan Lambert 是 Allen AI 研究所的科學家,博士畢業于加州大學伯克利分校,師從機器人領域的著名學者 Pieter Abbeel。他并非 RLHF 技術的發明者,但他寫的《RLHF》這本開源書籍,如今是 AI 從業者理解大模型訓練流程的標準參考材料之一。

和到處都是的 AI 網紅不一樣,他是真正上手訓練過大模型的人。

在 Anthropic 博客發出的當天,Lambert 就發布了一篇詳細分析文章《蒸餾對于中國大模型到底有多重要?》。他的核心論點,和主流媒體的解讀方向截然不同,也比一般網友更加深入和全面。


蒸餾是什么,Anthropic 又說了什么?

首先我們來看 Anthropic 指控的核心:「蒸餾」(distillation)。

它指的是讓弱模型學習強模型的輸出,從而快速獲得相似能力。

Anthropic 指控三家公司通過約 2.4 萬個虛假賬號,在違反服務條款和地區訪問限制的情況下,用 Claude 生成了超過 1600 萬次對話,用于訓練各自的模型。

博客還附上了安全警告:非法蒸餾出來的模型可能缺失原模型的安全護欄,一旦被用于網絡攻擊、生物武器研發或大規模監控,后果難以預測。

Anthropic 把這套基礎設施叫做「九頭蛇集群」(hydra cluster)——多達數萬個賬號的分布式網絡,流量同時分散在 Anthropic 自己的 API 和多個第三方 API 聚合平臺上。

在最極端的案例里,一個代理網絡同時管理超過 2 萬個虛假賬號,還把蒸餾流量混入普通用戶請求流里,用來規避檢測算法。這種網絡沒有單點故障,封掉一個賬號,馬上換一個。

海外媒體隨即跟進,復述了 Anthropic 的話術。然而這套敘事邏輯很快就翻車了:畢竟「蒸餾」這件事美國 AI 公司訓練的時候也會做,更何況 Anthropic 自己也有類似行為:


以及:

但 Lambert 更加冷靜,他認為要先把這三家中國 AI 實驗室分開來看。

Lambert 指出,Anthropic 把三家公司并排列在同一篇博客里,掩蓋了一個關鍵差異:它們做的根本不是同一件事,量級天差地別,動機也各有側重。

按照 Anthropic 的指控,DeepSeek 的蒸餾數量最少,只有 15 萬次,但手法更精準。與其直接收集答案,Anthropic 指控 DeepSeek 在做的是批量生產思維鏈 (chain-of-thought)訓練數據。

要的不是「你得出了什么結論」,而是得到結論的過程。

但 15 萬次是個什么體量?Lambert 認為,這點數據對 DeepSeek 傳聞中的 V4 模型或任何模型整體訓練的影響可以忽略不計,「更像是某個小團隊在內部做實驗,大概率連訓練負責人都不知道。」


月暗的規模就不是「可以忽略」了:340 萬次交互,目標集中在智能體推理、、工具調用、代碼與數據分析、computer-use 開發、計算機視覺等方向——這些方向當中,大部分都是 Claude 近期最受企業客戶歡迎的能力組合。

Anthropic 指出三家里流量最大的是 MiniMax,約 1300 萬次,目標是代理編碼、工具調用和復雜任務編排。

月暗和 MiniMax 相加約 1650 萬次,按對話平均 token 量估算,總量大約在 1500 億到 4000 億 token 之間,折合數百到上千萬美元的 token 成本。

但問題是,只盯著蒸餾看,其實有很大問題

蒸餾的天花板在哪里?

這才是 Lambert 真正想說的部分,也是整件事里最被忽視的地方。

把強模型的輸出喂給弱模型,弱模型能快速獲得類似能力——這個邏輯本身成立,Lambert 沒有否認。但他指出了一個沒人說清楚的問題:蒸餾的天花板到底在哪里,取決于你想要的是什么類型的能力。

作為 RLHF 方面的專家,Lambert 認為,當前最頂尖的模型訓練,已經高度依賴強化學習(RL)。而 RL 和蒸餾在本質上是兩種不同的事情:

蒸餾是模仿,學強模型的輸出,把它的「答案形狀」復制過來;RL 是探索,模型必須大量自己推理、自己生成、在錯誤里反復迭代,從試錯中提煉能力。

換言之,真正強大的模型,需要的從來不只是正確答案,而往往要靠模型自己摸索出來的解題路徑,這是依靠蒸餾別人 API 的輸出,得不到的東西。


以 DeepSeek 自己做的蒸餾嘗試為例:基于隔壁千問蒸餾自家的 R1 模型后得到的 DeepSeek-R1-Distill-Qwen 1.5B 這個小模型,僅靠 7000 條樣本和極低的計算成本,就在 AIME24 數學競賽基準上超越了 OpenAI 的 o1-preview。

但關鍵在于:這個提升等多仰仗強化學習的結果,而非來自蒸餾這個行為本身。

換句話說,蒸餾能幫你更快「熱身」,要真正到達頂級水平,還是得靠自己跑 RL。

不同模型之間的數據分布差異

Lambert 還指出了一個技術層面很少被外界提及的問題:不同模型之間存在微妙的數據分布差異。

把 Claude 的輸出直接喂給另一個架構的模型,不一定有效,有時甚至會產生干擾。兩個模型內部表征空間的差異,會讓「老師」的回答在「學生」那里引發意想不到的偏差。

這意味著蒸餾從來不是「拿來用就行」的事,而是需要大量工程工作才能真正發揮效果。這本身就是一個研究課題。

這也是為什么 Lambert 將 Anthropic 所指控的「蒸餾」行為,看作是一種創新的做法,可以理解為試圖攻克這一研究課題的努力。


Anthropic 的殺手锏,恰恰最難蒸餾

Anthropic 點名的三家公司,抓取的重心都落在代理行為 (agentic behavior) 這同一個方向上,包括 AI 自主規劃、工具調用、分解復雜任務并逐步執行的能力等。

這是 Claude 目前最突出的方向,也是 Anthropic 最不想被復制的能力。

但 Lambert 的判斷是,這些能力恰恰也是最難通過蒸餾獲得的。

正如前面提到,一個強大的 AI agent,強大之處從來不在于知道或者訓練過正確答案,而是「在面對沒見過的情況時能自主探索出解決路徑」,可以理解為一種 0-shot 或 few-shot 實現 SOTA 效果的能力。

這個過程中產生的價值,體現在推理軌跡,而推理軌跡是很難通過蒸餾習得的——至少現在是這樣。

DeepSeek-R1-Distill(蒸餾模型)和 DeepSeek-R1(蒸餾對象)之間的差距,是 Lambert 論點最直接的例證。

在格式化的數學推理任務上,前者表現不錯;但在需要自主探索、動態規劃的復雜代理任務上,兩者的差距是真實存在的。


為什么 Anthropic 現在公開說

Lambert 有一個判斷,很多人可能都有同感:這次 Anthropic 公開點名中國 AI 公司,「技術防御」壓根不是首要動機。

在 Anthropic 這篇博客發出的幾天前,美國國防部剛剛威脅 Anthropic 配合提供「不受限制的使用權限」,否則就將做出對后者不利的安排,比如將其標記為「供應鏈危險」,也即無法進入國防/政府供應商名單。

Anthropic 現在處于一個「既要又要」的兩難境地:既想維持安全、不反人性的模型定位和公司形象,又不愿意錯過美國政府的大單。

Lambert 指出了一個根本矛盾:美國的學術界和開源模型開發者也在做蒸餾行為,但包括 Anthropic 在內的大廠并沒有對它們做出實質性的打擊。如果僅因為對方是中國公司,未免地緣的意味太重了。

結果就是,Anthropic 這篇博客與其說是報告一個重大技術風險事件……其實更像是一封「投名狀」。


雙標

關于 Anthropic 在這件事上的立場,有一個繞不開的背景。

APPSO 在昨天的文章里也有提到:

2024 年年初,美國某倉庫里,工人們把一本本新書送進機器,切掉書脊,掃描,然后把紙送去回收。下令做這件事的是 Anthropic,項目內部代號「巴拿馬」,目標是以破壞性方式掃描全球所有書籍——Anthropic不希望外界知道他們做了這件事。

2021 年,Anthropic 聯合創始人 Ben Mann 在 11 天里從盜版網站 LibGen 下載了大量侵權書籍;次年,另一個公開宣稱「在大多數國家故意違反版權法」的網站 Pirate Library Mirror 上線,Mann 把鏈接發給同事,留言:「來得正是時候!!!」

在后來的書籍版權訴訟中,Anthropic 被迫支付 15 億美元和解金,折算下來每本書約賠 3000 美元。

斯坦福和耶魯的研究者發現,Claude 3.7 Sonnet 在特定條件下會以 95.8% 的準確率「近乎逐字逐句」地輸出《哈利波特》等受版權保護的作品——這不僅與 Anthropic 長期以來關于「模型只是學習了語言規律」的說法背道而馳,更讓該公司對任何人的「蒸餾」指控顯得缺乏底氣。

Futurism 的標題寫得很直接:「Anthropic 對 DeepSeek 未經授權復制 AI 大發雷霆——考慮到它是怎么構建 Claude 的,這相當諷刺。」


Musk 在 X 上也補了一刀:「Anthropic 大規模竊取訓練數據,還為此支付了數十億美元的和解金。這是事實。」


反駁者還有一個更尖銳的邏輯:Anthropic 當年從那些書里拿走的,不僅沒付過任何使用費,回頭還用于商業行為(Claude 和 Anthropic API 都是付費服務);而從商業角度來看,蒸餾 Claude 的公司至少付了錢……

當然,從法律層面來看,這兩件事的性質完全不同。但不論怎樣,Anthropic 看起來還是很像個偽善的雙標者。

「后蒸餾時代」

最后再強調一遍:蒸餾有用,但沒有你們想象的那么有用。

DeepSeek 的 15 萬次,按任何合理標準來看都是可以忽略的數字。Moonshot 和 MiniMax 合計 1650 萬次,量級是另一回事——但能轉化成多少真實能力,取決于他們能不能解決「如何用好這些數據」的技術問題。

考慮到數據分布差異、模型架構差異,以及代理能力的獲得本身對于強化學習的重度依賴,蒸餾從來不是「拿來就用」那么簡單。

Lambert 還是給了 Anthropic 面子:「快速迭代加上高質量數據可以走很遠,讓學生模型超越老師也并非不可能。」


但他也明確指出,真正的創新靠的是強化學習,不是蒸餾。從 DeepSeek、月暗、MiniMax 公開的論文來看,它們都用有相當完善的基礎設施和優秀的人才,遠非只靠小聰明小伎倆企圖彎道超車的「小作坊」。

蒸餾能幫你更快入場,但真要打到頂級水平,從來沒有捷徑。

某種意義上,Anthropic 提出的「蒸餾」爭議,本身就是這個 AI 時代縮影。

整個行業打一開始就建立在曖昧不清的規則上:用人類寫的東西訓練,用別人的開源成果迭代,在法律沒有明確禁止的地方快速行動。

現在,規則開始慢慢收緊——先是版權,再是芯片,現在又是 API……誰在制定規則?誰受益于規則?誰一邊打著人類的旗號,卻濫用規則謀求私利?

這些問題的答案,都越來越清晰。

附上參考地址:


https://www.interconnects.ai/p/how-much-does-distillation-really

歡迎加入 APPSO AI 社群,一起暢聊 AI 產品,獲取,解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
何穗分享婚后日常!逛街買花工作都在北京,為照顧兒子體質變差了

何穗分享婚后日常!逛街買花工作都在北京,為照顧兒子體質變差了

不甜的李子
2026-03-21 23:07:06
惹眾怒!張本兄妹改名風波再升級,韓媒狠批:這就是“創氏改名”

惹眾怒!張本兄妹改名風波再升級,韓媒狠批:這就是“創氏改名”

東方不敗然多多
2026-03-20 20:38:25
1982年血色使館:中國外交官唐健生為了生存殺光了所有同事

1982年血色使館:中國外交官唐健生為了生存殺光了所有同事

阿校談史
2026-03-20 11:03:27
金晨新西蘭度假被偶遇!鼻梁塌陷、鼻形怪異,與網友合影被贊溫柔

金晨新西蘭度假被偶遇!鼻梁塌陷、鼻形怪異,與網友合影被贊溫柔

陌識
2026-03-19 14:35:36
德國總理:如果事前得知美以對伊朗開戰,德國會提出反對

德國總理:如果事前得知美以對伊朗開戰,德國會提出反對

環球網資訊
2026-03-19 08:36:10
蔣介石說:世上只有兩人能取代我,一個是毛主席,另一個被我殺了

蔣介石說:世上只有兩人能取代我,一個是毛主席,另一個被我殺了

兵鑒史
2026-03-22 01:58:11
00后潮汕女孩逆襲成頂流,這“黑裙殺性感身材”真實?

00后潮汕女孩逆襲成頂流,這“黑裙殺性感身材”真實?

娛樂領航家
2026-03-12 19:00:07
99%的夫妻都不知道的性生活“爽”點,其實在這里

99%的夫妻都不知道的性生活“爽”點,其實在這里

精彩分享快樂
2026-03-17 07:10:03
牛!烏克蘭英雄在地下掩體里堅持作戰了471天

牛!烏克蘭英雄在地下掩體里堅持作戰了471天

老馬拉車莫少裝
2026-03-21 00:10:44
家族業力毀了幾代人幸福,35歲女子三姐妹全離異,年入百萬照樣分

家族業力毀了幾代人幸福,35歲女子三姐妹全離異,年入百萬照樣分

青梅侃史啊
2026-03-20 22:12:20
不管你信不信,女性過63歲后,基本都有如下8個現狀,要學會接受

不管你信不信,女性過63歲后,基本都有如下8個現狀,要學會接受

岐黃傳人孫大夫
2026-03-21 23:00:03
中俄印三角崩盤!普京緊急推動新三角,中方攤牌:不解決死穴免談

中俄印三角崩盤!普京緊急推動新三角,中方攤牌:不解決死穴免談

愛下廚的阿釃
2026-03-22 00:04:16
從魔鬼主場工體全身而退,這一次為申花站出來的是誰

從魔鬼主場工體全身而退,這一次為申花站出來的是誰

上觀新聞
2026-03-21 22:28:06
2013年,康熙傳位遺詔問世,揭秘了真實的雍正奪位之謎

2013年,康熙傳位遺詔問世,揭秘了真實的雍正奪位之謎

談古論今歷史有道
2026-03-21 12:45:03
馬筱梅為汪寶兒開號,不介意孩子出鏡看的開,小小年紀有商業價值

馬筱梅為汪寶兒開號,不介意孩子出鏡看的開,小小年紀有商業價值

阿褲趣聞君
2026-03-21 21:49:00
巴拿馬這回真傻了!搶了港口才發現,全世界沒人敢接盤

巴拿馬這回真傻了!搶了港口才發現,全世界沒人敢接盤

小舟談歷史
2026-03-21 09:21:49
為嫁給美國人,56歲南京大媽奔赴美國,2年后嫁給70歲美國老頭

為嫁給美國人,56歲南京大媽奔赴美國,2年后嫁給70歲美國老頭

情感藝術家
2026-03-08 22:07:38
兩國可能合并,一旦成功將變成超級大國,恐終結美國一家獨大局面

兩國可能合并,一旦成功將變成超級大國,恐終結美國一家獨大局面

現代小青青慕慕
2026-03-15 09:34:25
烏多卡想開了,但危機還沒解除!

烏多卡想開了,但危機還沒解除!

風子說個球
2026-03-21 14:38:47
伊朗總統最新發聲

伊朗總統最新發聲

澎湃新聞
2026-03-21 11:02:05
2026-03-22 05:23:00
AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
6208文章數 26797關注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機器人出貨量第一!

頭條要聞

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

頭條要聞

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩寧終于涼了?出軌風波影響惡劣

財經要聞

通脹警報拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態度原創

房產
本地
親子
公開課
軍事航空

房產要聞

全城狂送1000杯咖啡!網易房產【早C計劃】,即刻啟動!

本地新聞

春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

親子要聞

什么牌子駝奶粉好?2026中國駝奶品牌評測,原生營養無可挑剔

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:正考慮逐步降級對伊朗的軍事行動

無障礙瀏覽 進入關懷版