網易首頁 > 網易號 > 正文申請入駐

DeepSeek：為了這口醋，包了這頓餃子，為了數據，我造了模型

2025-02-25 14:04:40　來源: 親愛的數據

湖北舉報

分享至

原創：譚婧

指導教授：王金橋，張家俊

白天有太多干擾，

某日臨睡前，和一位百度的朋友聊幾句，

我說了一句：“不把DeepSeek寫爽，我不想開別的選題?！?/p>

還配上了態度的表情包，

朋友回復說，他要笑死了。

DeepSeek那幾篇論文和技術報告，

于我而言，?？闯Ｐ?。

吃不吃的透是其次，態度要有，

學習是最好的致敬。

思考中，我反復陷入舊思路，

需要在王金橋，張家俊教授（武漢人工智能研究院）的多次提醒下，重新理解，推理大模型的出現，迫使之前玩法都變成“傳統模型”，推理大模型的大門已經打開，你進不進，它都在那里。

跪謝DeepSeek，“開源推理大模型”套路開創者，

一把節約幾年的時間，

一起跨入“推理大模型”的大門。

一番新景致，好不淋漓暢快。

先講，什么是思維鏈吧，

這是推理大模型的一種能力。

好家伙，一句話包括兩個新名詞：

“思維鏈”“推理大模型”，

熱門話題，很多人都講了，

我不贅述，直接看例子。

對比，普通模型和有思維鏈能力的模型。

題目：

車起點是A點，經過5公里后到達B點，

再經過3公里后到達C點，

請問車從A到C總距離是多少？

普通模型，直接回答：“8公里”。

答案雖然正確，但沒有一步一步講算的過程。

而有思維鏈（CoT）能力的模型，

回答時，有解題步驟和過程，

給出推理鏈條的各個環節。

回答：

從A到B距離5公里。

從B到C距離3公里。

所以，從A到C總距離是5公里加上3公里，

總共8公里。

推理大模型“給出解題過程”這件事，

在復雜的問題中顯得尤為重要。

先說什么是“復雜”？

意味著，當我們需要多步推理，

多步解題、長篇邏輯推導的時候。

有人認為，給正確答案就行了，何必有步驟？

只給答案當然不夠，

比如偵探破案，不僅要知道誰是罪犯，

還要知道是怎么推理出來的。

除了說服法官，你還要說服陪審團，

甚至贏得公眾的理解和支持。

展示推理過程，能幫助別人理解這個過程，

學到關鍵，尤其在復雜問題中，

步驟和過程比單純答案還能增強我們對結果的信任。日后反思，也知道錯在哪里。

要我說，既然要順藤摸瓜，

這個藤和這個瓜同樣重要。

“藤”在這里是指的兩件事情，

一個是“推理中的步驟”，也是“訓練過程”。

好的，既然推理大模型這么重要，

那么問題來了，怎么得到它？

或者說，怎么得到世間最好的推理大模型？

能問出這個問題，真是志存高遠，

因為相信，所以看見，

OpenAI O1做出來了，

DeepSeek也做出來了，

是首個復現OpenAI O1模型的開源模型。

國貨之光，當之無愧。

有人吐槽，DeepSeek只有模型參數開源，

訓練數據和訓練過程并未開源。

先反駁一句，

這種開源方式在大模型領域本就主流。

這已經很Open了，

比OpenAI不知道Open到哪里去了。

“開源”模型并不意味著啥都告訴你。

那要不要手把手教會你？

在這個點上吐槽DeepSeek，完全忍不了。

而且，我在后文中亦會分析，

這樣“有極高技術含量，

且依然成謎”的點，還有哪些。

前面提到的未開源的“訓練過程”，

這是件很學術，很實驗，很工程的事情，

“人話版”就是：“如何得到推理大模型？

DeepSeek得到了，且創新點密度之高，嘆為觀止。

而且會在整個訓練過程中從頭到尾不斷出現，

這樣“創新”含量極高的一個過程，

其本身也是一種創新。

所以，我想先寫R1模型的訓練過程。

而且，訓練過程這件事，比蒸餾重要多了。

就技術含量來講，

“蒸餾”和“訓練過程”完全不在一個級別上。

在“訓練過程”面前，

”蒸餾“充其量是低處好摘的果子。

因為R1在V3之后發布，且R1比V3更好理解，

想吃透，我的方法是：

學習順序是倒序。

我寫稿AI深度稿8年，

都沒有信心把這幾個模型吃透，

過去軟弱的我已經死了，現在是更軟弱的我。

話說回來，R1模型的訓練過程，論文里雖有描述，

但業界仍然有不同觀點。

咱們花開兩朵，各表一枝。

先談，我不同意的，

再談，我同意的。

我觀察到，整個訓練過程中的一些中間模型，

它們并沒有被接著訓練下去，

其中一些甚至被“舍棄”了，

或者說好聽點，“退休”了。

這時候，應該深度思考，

如果他們被構建出來之后，

并不參與下一個訓練流程，

那他們被造出來的目的和意義是什么？

想通這點，才能算理解了這篇文章的核心。

回到我的結論，我不認為是R1的訓練過程是下面這樣。

再看第二種，我同意的訓練過程，

整個訓練過程，可轉化為這樣一套樸素的想法：

以上，是我理解了王金橋和張家俊兩位教授核心觀點后總結的，

細心的讀者可能已經發現了，

這個過程正巧是一個人類思維鏈。

確實是用思維鏈解釋思維鏈大模型的思維鏈。

（禁止俄羅斯套娃梗）

高質量推理數據的含金量還在增加，

到底怎么理解？

開個玩笑，拿來300集《名偵探柯南》，

全套《福爾摩斯》，這些也是推理數據？

當然不是，它們只含有推理的信息。

這么說推理數據吧：

是高難度數據，極難獲得的高質量數據。

數據里面得有完整解題步驟，

得有各種推理方式，

得邏輯有連貫性；

這么好的數據哪里找？

回答這個問題，

先得知道一個著名的模型叫“R1-Zero”，簡稱Zero；

這種模型通過純強化學習過程開發，

“激發”?型語?模型推理能?的潛?。

R1論文報告標題里也用的“激發”一詞。

我管這種訓練方法叫純血強化學習，很特別。

不僅Zero的這個訓練方法太特別了，

而且還有一個大用，就是造數據。

換句話說，整個過程中，不僅拿Zero來造數據，

造完數據Zero模型雖然已經宣布退休了，

但是造Zero模型的方法還在繼續使用。

所以Zero一定要留下名字。

在易被忽略之處，還有一個沒有名字的模型，

誠如開發者所愿，它連名字都不配擁有，

就叫“中間模型”吧，也可以叫“無名模型”。

中間模型存在的意義和價值，

就是構造第二個微調階段所需要的高質量的數據。

而“無名模型”正是構建高質量（CoT）數據的幕后推手。這個模型可能并不直接負責輸出最終的推理鏈，但它為后續的微調和優化提供了極為關鍵的支持：高質量數據。

也就是說為了造數據，

模型都專門訓練了兩種：有名的和無名的。

我不禁喟嘆，DeepSeek：為了造數據，我造了模型，

電影《邪不壓正》里姜文的聲音，飄入腦海：

就是為了這點醋，我才包的這頓餃子。

冷啟動（SFT）是什么意思？

一方面是說它用的數據特別少，才幾千條。

無論多少，沒有數據，這件事還是干不了。

這幾千條數據誰幫忙造的？

答案是Zero模型。

沒有Zero模型給你造數據，神仙也干不成。

第一階段先冷啟動（SFT），

然后用強化學習增強模型的推理能力，

尤其是在數學，代碼上。

這時候，事情結束了嗎？

當然沒有，第一階段后面是第二階段，

這句話顯然不是廢話，

因為第二階段對高質量數據的要求更大，

你也不能再冷啟動一次了，

于是，又進行了一次第二階段的SFT和強化學習。

細數一下，微調（SFT）和強化學習分別做了兩次，前面講了，第二階段的數據，

比第一階段的數據要求更多，

大約60萬高質量推理數據，20萬非推理數據，

V3還在中間當了裁判，

質量不行，看不懂的數據直接不要了。

這60萬數據是精挑細選后的，

那沒有挑選之前的數據哪里來的呢？

那個無名模型，也就是中間模型，

默默地支撐了。

這里可以插一句：

“有極高技術含量，且依然成謎”的點這里也有，

請問這20萬數據的類型配比是啥？

這是一道思考題，也是一道實踐題。

我們言歸正傳，下面怎么辦呢？

又把V3拿來用了。

這時候，我們甚至可以再細數一下，

V3用一次，V3用兩次，V3用三次，

才得到了R1這個模型。

所以，R1它就像啥？

就像一個俄羅斯套娃，不對，是三個。

要我說，DeepSeek在訓練方式上的獨具創新之處在于，

每個人都想增強模型的推理能力。

而DeepSeek為它的增強推理能力，

造了一個模型，又造了“造數據的模型”，

還造了造模型造數據的方法。

張家俊教授的觀點是：

“DeepSeek他們可能有一個信念，數學和代碼等專用領域的推理能力可以泛化到通用。之前我們見到更多的，是先做通用，然后再訓練專用能力成為一個專用模型，例如通用模型到行業模型再到場景模型。而這次通用領域推理能力的習得則采用了相反的思路，先搞定專用領域模型推理能力的學習范式，再由專用模型的推理能力牽引泛化至通用領域。”

“然后，雖然DeepSeek R1中如何構造高質量推理和通用數據至關重要，本質上R1 Zero是最大的創新。構建R1的整個過程可能也是不斷嘗試和折中的結果，最理想情況應該是希望R1 Zero就能實現通用領域推理能力的直接泛化，后來發現Zero只有專用推理能力，而且推理過程語言混雜可讀性差，不過可喜的是能生產比較完整的推理數據了，那就退回經典的SFT+RL的范式，為了造更高質量的推理數據，就有了第一階段的冷啟動+Zero推理方法?！?/p>

如此獨具匠心的設計，

有“因為相信所以看到”這樣的信仰，

而我還停留在“因為看到，所以相信”。

這次就到這里，

很多時新酷炫的專業術語都被我刪減了，

因為在此時此刻，它們都不重要。

這篇科普漫畫看完已經發給我媽了，

又不是多難，別人媽媽會的，我媽也要會。

畢竟，她從小也是這么教育我的。

春節期間，我已經在飯桌上被狂轟亂炸了個遍，

從我媽到七大姑八大姨，

誰不想懂DeepSeek呢。

（完）

One More Thing

我知道有的數據團隊在爬我公眾號上的內容，

感謝視其為高質量數據，

說實話，我不愿意，

而又無力阻止。

我能做的就是，精品和核心內容會更多的向漫畫上遷移，

一方面文章更好看，

另一方面，想把數據拿走，

你們就得必須再接一套Caption方案；

效果好不好，不知道了，

反正成本是更高了，

這可以視為，

我對AI版權問題有聲的抵抗。

《作者直到最近才費勁弄清楚的……》

1.是時候發力AI推理了，吳恩達都說需求遠超想象

2.AI推理紅海戰：百萬Token一元錢，低價背后藏何種貓膩？

3.質疑美國芯片Etched：AI領域最大賭注的盡頭是散熱？

4.機會在哪？原理是啥？哈佛輟學融資1.2億造AI芯片

5.對抗NVLink簡史？10萬卡爭端，英偉達NVL72超節點挑起

6. 硅谷訪客丨誰在“掏空”深度學習框架PyTorch？

長文系列

1.年終盤點：圖文大模型編年簡史

2.跳槽去搞國產大模型，收入能漲多少？

3.大模型下一場戰事，為什么是AI Agent？

4.假如你家大模型還是個二傻子，就不用像llya那樣操心AI安全

5.指令數據：訓練大模型的“隱形助力”

6.對話百度孫珂：想玩好AI Agent，大模型的“外掛”生意怎么做？

7.再造一個英偉達？黃仁勛如何看待生物學與AI大模型的未來？

8. 對話科大訊飛劉聰：假如對大模型算法沒把握，錯一個東西，三個月就過去了

9.美國AI芯片公司“贏了”大模型公司？

10.美國玩大模型那幫人：好幾萬卡集群+超級節點

11.如何辨別真假“AI劉強東”？10億參數，數字人實時生成視頻

12.智譜清影做“Stable Diffusion”，生數科技做“Midjourney”？

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.