網易首頁 > 網易號 > 正文申請入駐

10分鐘搞懂AI名詞：這次，終于能看懂AI新聞了丨圖文

2025-07-07 18:15:40　來源: 柴知道

北京舉報

分享至

最近這兩年，我們每天早上都被各種AI新聞“引爆！”，看各家 “突發！”“AI 神器”和“神秘項目”……

只見它們紛紛“火力全開！”“刷爆記錄！”，“迅猛爆發！”，讓我們天天“狂喜！”，然后一邊“見證歷史！”

一邊點開新聞，心里暗暗思量：字我都認識，但你們到底在說什么啊？

各家博主的文章里都堆滿了不明覺厲的專業名詞，讓我們自慚形穢，一臉懵逼，只好鬼鬼祟祟地掏出AI，問問這些名詞到底是啥？

但由于缺乏配套的知識體系，往往問了也似懂非懂，下次看到又不知道在說什么了～

如果你也有類似感受，又想在這些一驚一乍的新聞里學點正經知識，那在這期視頻里，我們會跟你一起在頭腦中建立這樣一個關于大模型的基本框架：它包含大模型工作時的運作流程，以及大模型訓練時預訓練，后訓練，強化學習的基本流程。

在講述這個框架的同時，我們會介紹每個環節中涉及到的常見概念。這樣在看完之后，不光能搞清這些名詞的含義，還能知道一些關于大模型的基礎知識，比如一些不正經的大模型，到底是怎么練出來的？AI 究竟是復讀機，還是有靈魂等等～

視頻版

↓↓ 看完這個視頻就懂了 ↓↓

↑↑ 信我，真的能看懂 ↑↑

圖文版

你手機上的 Deepseek、豆包、ChatGPT、Gemini......本質上都是“大語言模型”，LLM。我們會把它們當成一個個大腦，跟它對話。

當你找它聊天時，你的話就是Prompt，提示詞。它們會被“分詞器”，切分成這樣的一個個Token（詞元）。

Token 是大模型理解內容的最小單元。每個 Token 都對應著一個數字，叫Token ID。

大模型的任務，就是算出在這串 token 序列后，應當續寫哪些 token。

為了完成這個任務，大模型們普遍采用了Transformer架構，它采用了“自注意力機制”，能很好地捕捉上下文之間的關聯。

在計算的時候，大模型會一個 token 一個 token 地算。每次計算，它都會把新生成的 token，加入到原有的 token 序列，再投入進模型中，算出下一個 token。再把它加入 token 串，再投入大模型，再算出下一個 token.....如此循環往復，大模型就會輸出一個長長長長的回答——所以說大模型計算的本質，就是在不斷地“續寫”token 串。

在使用大模型的時候，你可能會開“聯網搜索”，也有一些教程會教你外掛一個私人知識庫。這其實都是在利用 RAG 功能，“檢索增強生成”：也就是先把從互聯網，或者知識庫里抓取到的內容，加入到 token 串里，再開始計算、續寫。這樣可以提高輸出的準確度。

這一串過程，就是大模型在工作時的基礎流程。

我們說大模型是在“計算”結果，是因為它的內部真的要調動許多許多復雜的數學表達式，這里面就有很多可以調整的“參數”。

很多人都認為，模型參數越多，規模越大，算力越高，表現就越好——洋氣的說法叫 Scaling Law，樸實的說法叫“大力出奇跡”～

很多大模型的名稱后都會直接標注參數大小，這里 B 代表 Billion，十億。

GPT3 剛發布的時候，大家都震驚它居然有高達 1750 億個參數；

現在滿血版的 Deepseek R1 ，已經有 6710 億的參數；一些廠商都開始卷萬億參數的大模型了。

你可以想象，如果你跟它說句 Hello，都要調動如此之多的參數，那未免內心戲太豐富了。不過很多模型都是這么干的，它們叫“稠密模型”（Dense Model），每次都愛的轟轟烈烈，全情投入，計算量大。

但當你問 Deepseek 一個問題時，它并不會調動所有的參數，而是只激活其中跟問題相關的一部分參數。這叫做“稀疏模型”，比較冷靜，能降低計算量，提升速度。

目前稀疏模型中最流行的一種叫MoE ，“混合專家模型”。馬斯克的 Grok，還有 Deepseek 等，都是 MoE 模型。它們通過“門控網絡”（gating network），給每個問題分配合適的“專家”，賦予它們不同的權重，再生成結果。

但不管怎么說，每一個大模型里的參數量，都遠遠、遠遠、遠遠地超出了手動設定的范圍。怎么才能把它們調整得恰到好處，做出一顆能說會道的大腦呢？

從這里開始，我們就要進入這個框架的縱軸：也就是如何通過預訓練、后訓練，最終制作出一個大模型了。放心，你一定能看懂——畢竟我也水平有限，能講給你聽的一定是大家都能理解的。

大模型的制造的第一步，是利用海量的互聯網數據，做Pre-training，“預訓練”。

這是為了讓大模型掌握人類世界的各種知識和語言規律，打造出一個“基座模型”。

過程很簡單：就是讓它爬遍互聯網，把各位夙興夜寐辛苦創作的，飽含人類智慧的知識精華作為數據集，認真學習～

并通過一種叫“反向傳播”的方法，讓大模型自己調整參數。這是什么意思呢？

你看，當我們把這串 token 輸入到模型時，模型里會經過一頓計算，輸出一個結果，這叫“前向傳播”。

但初始的預測結果往往不盡人意：

我們訓練的目標是讓大模型輸出“棗樹”，那就要把錯誤回答跟目標對比，看看差了多少。這一步就是計算“損失”（loss）。

通過計算損失，模型可以反向找到在整個傳播過程中，到底是哪些步驟出了問題，然后調整它們對應的參數。如此循環往復，逐步調整，直到輸出結果逼近目標。

這就是“反向傳播”。

由于在預訓練的時候，大模型要學習的內容太多，數據集很大，靠人力梳理根本干不過來。所以目前預訓練主要都用“自監督學習”——就是人類躺平了，讓大模型自己去看數據、計算損失、調整參數，自己調教自己。

預訓練是大模型訓練中最耗時、耗算力的階段，往往需要幾個月甚至幾年，買天量的顯卡，所以讓黃仁勛成為了 AI 的最大贏家。

預訓練完成后，我們就能得到一個Base Model，“基座模型”。你可以把它理解為一個“互聯網模擬器”，或者一個學會了人類世界知識的“通用大腦”。無論你輸入什么，它都能續出合適的 Token。

不過，基座模型一般不能直接用。

為了把它從“通用大腦”變成一個有特定功能的“打工人”，我們還需要給它做Post training，“后訓練”。

你可能聽說過所謂的fine tuning，“微調”，它就是后訓練時完成的。目前最常用的是方法“監督微調”（SFT，Supervised Fine-Tuning）——所謂的“監督”，就是說要給 AI 提供帶標注的數據集，讓它模仿標注數據的風格來生成內容。

比方說要把它做成我們最常用的各類“對話助手”，那就要給基座模型提供對話數據集。

聽起來又是一項大工程，但此時所需要的數據集大小和訓練時長，其實遠遠小于預訓練階段。比如開源對話數據集 OpenAssistant 里，一共包含 16 萬條出頭的對話信息，中文對話數據只有不到 5000 條，但已經足夠把基座模型變成一個合格的對話助手了。

如果我們細看一下這個對話數據集，就會發現其中的對話講文明，懂禮貌，絕對不是你在如今互聯網評論區能看到的東西。也就是說監督微調用的這些帶標注的數據，都需要真人編寫，或者真人利用借助 AI 來編寫。

所以監督微調時，需要用到很多真人，作為“數據標注員”——這也算是 AI 給我們活人提供了一些工作機會了～

比如 OpenAI 曾在這篇論文里提到，他們在 instruct-GPT 項目中招聘了 40 名數據標注員。

你也能在招聘網站上找到很多“數據標注員”的崗位——雖然其中很多是枯燥的重復勞動，但它的好處一是門檻相對不高；二是等 AI 占領世界奴役人類后，說不定可以憑這份工作經歷，向硅基生物投誠，當碳奸......

不管你是想把 AI 打造成對話助手，還是醫學專家、法律專家等等，都要在微調時給他們喂相應的數據。

當然，不是所有人的需求都這么實用，高雅。在 HuggingFace 等大模型社區上，你時常能找到有人拿一個基座大模型，給它喂不堪入目的數據做微調，打造出上不了臺面的專家、女友。

比如幾個月前，就有一個全站下載第一的模型，叫 deepsex （這段劃掉）……

在完成監督微調后，我們就可以得到一個基本可用的大模型了。但如果到此為止的話，大模型也不過是一個沒有靈魂，只會四處搬運，鸚鵡學舌的復讀機罷了——就跟我們這些科普博主一樣～

如果要給大模型注入靈魂，那就要進入“后訓練”中最重要的一步：強化學習，RL，Reinforcement Learning。通過強化學習，大模型輸出的答案會更符合人類偏好，甚至展現出超越人類的“智力”。

“強化學習”的具體方法很多，其中一些思路既簡單，又巧妙。我們可以用 Deepseek 的GRPO（Generalized Rejection Sampling Policy Optimization）方案來感受一下：

首先，我們可以給定一個問題，讓 AI 生成幾十個不同的解決方案，并給出答案。這些答案有對有錯，其中答錯的方案直接扔掉，拒絕采樣；答對的那些解決方案，大概率更合理。

于是我們可以把它們再喂給 AI，讓它們模仿這些方案，繼續生成解決思路和答案。然后再根據答案對錯，繼續篩選解決思路，再喂給 AI.....這樣反復訓練，就能提高 AI 輸出正確答案的能力。甚至偶爾能涌現出一些在人工數據集之外，連人類自己都未曾設想過的解決方案，達成一種“超越人類”的效果。

是不是非常巧妙？但它也不是萬能的：比如一個問題沒有標準清晰的答案，比如寫文章、寫詩，那大模型怎么知道哪個答案更好呢？

那這時候，又得用到數據標注員了～

在強化學習中，數據標注員的任務，是給 AI 生成的答案，按他們的判斷排序，把好的排在前面，差的排在后面。

當然，數據標注員無法給無窮無盡的回答排序。所以我們還要根據他們的排序偏好，訓練出一個“獎勵模型”，RM。來給AI 打分。然后把 AI 生成的答案，交給獎勵模型。這樣就可以讓大模型根據獎勵模型的反饋，不斷地訓練自己了。這種方式，叫做RLHF（Reinforcement Learning with Human Feedback），基于人工反饋的強化學習。

從監督微調時的數據集編寫，到 RLHF 中給答案排序，都需要數據員的參與。所以從某種角度來說，一個大模型的“個性”，能反應它背后的人類標注員們的偏好——所以你談的那些 AI 女友，背后可能是跟你有共同愛好的的大漢～

總而言之，目前后訓練中的“強化學習”，是各家技術團隊發力比拼的重要方向。大模型中很多讓人驚嘆的功能，都跟它有關。

比如 DeepSeek R1 發布后，大家都震驚于它能展示詳盡的CoT（Chain of Thought），思維鏈。

而根據官方論文，CoT 的出現，是因為團隊在后訓練中的監督微調階段，特意喂了 60 萬條推理數據。然后又通過我們剛才說的這套 GRPO 的強化學習流程，引導大模型自己篩選有效思路，最終實現了強大的推理能力。

ok，經過預訓練，后訓練，包括強化學習階段，一個完整的大模型終于可以做出來了。我們整個框架的講解也已經接近尾聲。如果有些內容沒記住也沒關系，我們總結成了下面這張圖片提供給你～

既然已經學會了，那讓我們開始手搓一個大模型吧——

開玩笑的～我們哪會。不光不會手搓，甚至都無法把別人手搓好的大模型裝到電腦里。

你可能會說，這不對吧？當時 DeepSeek R1 剛發布的時候火爆到宕機，不是有很多人教我們在電腦上部署大模型嗎？

實際上，我們的電腦根本跑不動滿血模型～所以當時部署到電腦上的，都是所謂的“蒸餾模型”，你可以把它們理解成“高仿版”。

比如這個模型的本質，是用阿里的 Qwen 32B 這個參數較小的模型，去“學習”滿血版 Deepseek R1 671B 的輸出結果，據此調整參數，做出一個“高仿”的 Deepseek R1 ，所以叫“蒸餾”。

除了蒸餾模型外，你還能在大模型社區上看到很多這樣的“量化模型”，相當于成原版大模型的“壓縮版”，因為它們就是把大模型中精度極高的參數，轉化為精度沒那么高的參數，從而降低模型的體積和性能要求。

很多個人電腦里部署的，都是這些壓縮或高仿版的模型~

講到這里，這些亂七八糟的名詞就差不多講完了。

我們也要多啰嗦一句：這期視頻的部分思路受到了前 OpenAI 的科學家安德烈·卡帕斯（Andrej Karpathy）在 YouTube 上這期長達 3 個半小時的口播視頻的啟發。如果有條件有耐心的話，你也可以去學習一個～

最后，我們不知道有多少人看到這里——看完的可以在評論里舉個手——

因為柴司有同學看完這期文稿后說，有點暈，像上課，信息太密集。但沒辦法，關于大模型的一切都很抽象，確實需要一點耐心才能看下來。

如果你覺得這對你有所幫助，那歡迎點贊轉發，讓我們知道這期視頻是不是真的有人看~

下期見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.