337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

10分鐘搞懂AI名詞:這次,終于能看懂AI新聞了丨圖文

0
分享至


最近這兩年,我們每天早上都被各種AI新聞“引爆!”,看各家 “突發!”“AI 神器”和“神秘項目”……

只見它們紛紛“火力全開!”“刷爆記錄!”,“迅猛爆發!”,讓我們天天“狂喜!”,然后一邊“見證歷史!”

一邊點開新聞,心里暗暗思量:字我都認識,但你們到底在說什么啊?


各家博主的文章里都堆滿了不明覺厲的專業名詞,讓我們自慚形穢,一臉懵逼,只好鬼鬼祟祟地掏出AI,問問這些名詞到底是啥?

但由于缺乏配套的知識體系,往往問了也似懂非懂,下次看到又不知道在說什么了~

如果你也有類似感受,又想在這些一驚一乍的新聞里學點正經知識,那在這期視頻里,我們會跟你一起在頭腦中建立這樣一個關于大模型的基本框架:它包含大模型工作時的運作流程,以及大模型訓練時預訓練,后訓練,強化學習的基本流程


在講述這個框架的同時,我們會介紹每個環節中涉及到的常見概念。這樣在看完之后,不光能搞清這些名詞的含義,還能知道一些關于大模型的基礎知識,比如一些不正經的大模型,到底是怎么練出來的?AI 究竟是復讀機,還是有靈魂等等~

視頻

↓↓ 看完這個視頻就懂了 ↓↓

↑↑ 信我,真的能看懂 ↑↑

圖文版

你手機上的 Deepseek、豆包、ChatGPT、Gemini......本質上都是“大語言模型”,LLM。我們會把它們當成一個個大腦,跟它對話。

當你找它聊天時,你的話就是Prompt,提示詞。它們會被“分詞器”,切分成這樣的一個個Token(詞元)

Token 是大模型理解內容的最小單元。每個 Token 都對應著一個數字,叫Token ID

大模型的任務,就是算出在這串 token 序列后,應當續寫哪些 token。


為了完成這個任務,大模型們普遍采用了Transformer架構,它采用了“自注意力機制”,能很好地捕捉上下文之間的關聯。

在計算的時候,大模型會一個 token 一個 token 地算。每次計算,它都會把新生成的 token,加入到原有的 token 序列,再投入進模型中,算出下一個 token。再把它加入 token 串,再投入大模型,再算出下一個 token.....如此循環往復,大模型就會輸出一個長長長長的回答——所以說大模型計算的本質,就是在不斷地“續寫”token 串


在使用大模型的時候,你可能會開“聯網搜索”,也有一些教程會教你外掛一個私人知識庫。這其實都是在利用 RAG 功能,“檢索增強生成”:也就是先把從互聯網,或者知識庫里抓取到的內容,加入到 token 串里,再開始計算、續寫。這樣可以提高輸出的準確度。

這一串過程,就是大模型在工作時的基礎流程。


我們說大模型是在“計算”結果,是因為它的內部真的要調動許多許多復雜的數學表達式,這里面就有很多可以調整的“參數”。

很多人都認為,模型參數越多,規模越大,算力越高,表現就越好——洋氣的說法叫 Scaling Law,樸實的說法叫“大力出奇跡”~

很多大模型的名稱后都會直接標注參數大小,這里 B 代表 Billion,十億。


GPT3 剛發布的時候,大家都震驚它居然有高達 1750 億個參數;

現在滿血版的 Deepseek R1 ,已經有 6710 億的參數;一些廠商都開始卷萬億參數的大模型了。


你可以想象,如果你跟它說句 Hello,都要調動如此之多的參數,那未免內心戲太豐富了。不過很多模型都是這么干的,它們叫“稠密模型”(Dense Model),每次都愛的轟轟烈烈,全情投入,計算量大。

但當你問 Deepseek 一個問題時,它并不會調動所有的參數,而是只激活其中跟問題相關的一部分參數。這叫做“稀疏模型”,比較冷靜,能降低計算量,提升速度

目前稀疏模型中最流行的一種叫MoE ,“混合專家模型”。馬斯克的 Grok,還有 Deepseek 等,都是 MoE 模型。它們通過“門控網絡”(gating network),給每個問題分配合適的“專家”,賦予它們不同的權重,再生成結果。


但不管怎么說,每一個大模型里的參數量,都遠遠、遠遠、遠遠地超出了手動設定的范圍。怎么才能把它們調整得恰到好處,做出一顆能說會道的大腦呢?

從這里開始,我們就要進入這個框架的縱軸:也就是如何通過預訓練、后訓練,最終制作出一個大模型了。放心,你一定能看懂——畢竟我也水平有限,能講給你聽的一定是大家都能理解的。


大模型的制造的第一步,是利用海量的互聯網數據,做Pre-training,“預訓練”

這是為了讓大模型掌握人類世界的各種知識和語言規律,打造出一個“基座模型”。

過程很簡單:就是讓它爬遍互聯網,把各位夙興夜寐辛苦創作的,飽含人類智慧的知識精華作為數據集,認真學習~

并通過一種叫“反向傳播”的方法,讓大模型自己調整參數。這是什么意思呢?

你看,當我們把這串 token 輸入到模型時,模型里會經過一頓計算,輸出一個結果,這叫“前向傳播”。


但初始的預測結果往往不盡人意:

我們訓練的目標是讓大模型輸出“棗樹”,那就要把錯誤回答跟目標對比,看看差了多少。這一步就是計算“損失”(loss)。

通過計算損失,模型可以反向找到在整個傳播過程中,到底是哪些步驟出了問題,然后調整它們對應的參數。如此循環往復,逐步調整,直到輸出結果逼近目標。

這就是“反向傳播”。


由于在預訓練的時候,大模型要學習的內容太多,數據集很大,靠人力梳理根本干不過來。所以目前預訓練主要都用“自監督學習”——就是人類躺平了,讓大模型自己去看數據、計算損失、調整參數,自己調教自己

預訓練是大模型訓練中最耗時、耗算力的階段,往往需要幾個月甚至幾年,買天量的顯卡,所以讓黃仁勛成為了 AI 的最大贏家。


預訓練完成后,我們就能得到一個Base Model,“基座模型”。你可以把它理解為一個“互聯網模擬器”,或者一個學會了人類世界知識的“通用大腦”。無論你輸入什么,它都能續出合適的 Token。


不過,基座模型一般不能直接用。

為了把它從“通用大腦”變成一個有特定功能的“打工人”,我們還需要給它做Post training,“后訓練”

你可能聽說過所謂的fine tuning,“微調”,它就是后訓練時完成的。目前最常用的是方法“監督微調”(SFT,Supervised Fine-Tuning)——所謂的“監督”,就是說要給 AI 提供帶標注的數據集,讓它模仿標注數據的風格來生成內容


比方說要把它做成我們最常用的各類“對話助手”,那就要給基座模型提供對話數據集。

聽起來又是一項大工程,但此時所需要的數據集大小和訓練時長,其實遠遠小于預訓練階段。比如開源對話數據集 OpenAssistant 里,一共包含 16 萬條出頭的對話信息,中文對話數據只有不到 5000 條,但已經足夠把基座模型變成一個合格的對話助手了。


如果我們細看一下這個對話數據集,就會發現其中的對話講文明,懂禮貌,絕對不是你在如今互聯網評論區能看到的東西。也就是說監督微調用的這些帶標注的數據,都需要真人編寫,或者真人利用借助 AI 來編寫

所以監督微調時,需要用到很多真人,作為“數據標注員”——這也算是 AI 給我們活人提供了一些工作機會了~

比如 OpenAI 曾在這篇論文里提到,他們在 instruct-GPT 項目中招聘了 40 名數據標注員。

你也能在招聘網站上找到很多“數據標注員”的崗位——雖然其中很多是枯燥的重復勞動,但它的好處一是門檻相對不高;二是等 AI 占領世界奴役人類后,說不定可以憑這份工作經歷,向硅基生物投誠,當碳奸......


不管你是想把 AI 打造成對話助手,還是醫學專家、法律專家等等,都要在微調時給他們喂相應的數據

當然,不是所有人的需求都這么實用,高雅。在 HuggingFace 等大模型社區上,你時常能找到有人拿一個基座大模型,給它喂不堪入目的數據做微調,打造出上不了臺面的專家、女友。

比如幾個月前,就有一個全站下載第一的模型,叫 deepsex (這段劃掉)……


在完成監督微調后,我們就可以得到一個基本可用的大模型了。但如果到此為止的話,大模型也不過是一個沒有靈魂,只會四處搬運,鸚鵡學舌的復讀機罷了——就跟我們這些科普博主一樣~

如果要給大模型注入靈魂,那就要進入“后訓練”中最重要的一步:強化學習,RL,Reinforcement Learning。通過強化學習,大模型輸出的答案會更符合人類偏好,甚至展現出超越人類的“智力”。


“強化學習”的具體方法很多,其中一些思路既簡單,又巧妙。我們可以用 Deepseek 的GRPO(Generalized Rejection Sampling Policy Optimization)方案來感受一下:

首先,我們可以給定一個問題,讓 AI 生成幾十個不同的解決方案,并給出答案。這些答案有對有錯,其中答錯的方案直接扔掉,拒絕采樣;答對的那些解決方案,大概率更合理。

于是我們可以把它們再喂給 AI,讓它們模仿這些方案,繼續生成解決思路和答案。然后再根據答案對錯,繼續篩選解決思路,再喂給 AI.....這樣反復訓練,就能提高 AI 輸出正確答案的能力。甚至偶爾能涌現出一些在人工數據集之外,連人類自己都未曾設想過的解決方案,達成一種“超越人類”的效果。


是不是非常巧妙?但它也不是萬能的:比如一個問題沒有標準清晰的答案,比如寫文章、寫詩,那大模型怎么知道哪個答案更好呢?

那這時候,又得用到數據標注員了~

在強化學習中,數據標注員的任務,是給 AI 生成的答案,按他們的判斷排序,把好的排在前面,差的排在后面

當然,數據標注員無法給無窮無盡的回答排序。所以我們還要根據他們的排序偏好,訓練出一個“獎勵模型”,RM。來給AI 打分。然后把 AI 生成的答案,交給獎勵模型。這樣就可以讓大模型根據獎勵模型的反饋,不斷地訓練自己了。這種方式,叫做RLHF(Reinforcement Learning with Human Feedback),基于人工反饋的強化學習


從監督微調時的數據集編寫,到 RLHF 中給答案排序,都需要數據員的參與。所以從某種角度來說,一個大模型的“個性”,能反應它背后的人類標注員們的偏好——所以你談的那些 AI 女友,背后可能是跟你有共同愛好的的大漢~


總而言之,目前后訓練中的“強化學習”,是各家技術團隊發力比拼的重要方向。大模型中很多讓人驚嘆的功能,都跟它有關。

比如 DeepSeek R1 發布后,大家都震驚于它能展示詳盡的CoT(Chain of Thought),思維鏈

而根據官方論文,CoT 的出現,是因為團隊在后訓練中的監督微調階段,特意喂了 60 萬條推理數據。然后又通過我們剛才說的這套 GRPO 的強化學習流程,引導大模型自己篩選有效思路,最終實現了強大的推理能力。


ok,經過預訓練,后訓練,包括強化學習階段,一個完整的大模型終于可以做出來了。我們整個框架的講解也已經接近尾聲。如果有些內容沒記住也沒關系,我們總結成了下面這張圖片提供給你~


既然已經學會了,那讓我們開始手搓一個大模型吧——

開玩笑的~我們哪會。不光不會手搓,甚至都無法把別人手搓好的大模型裝到電腦里。

你可能會說,這不對吧?當時 DeepSeek R1 剛發布的時候火爆到宕機,不是有很多人教我們在電腦上部署大模型嗎?

實際上,我們的電腦根本跑不動滿血模型~所以當時部署到電腦上的,都是所謂的“蒸餾模型”,你可以把它們理解成“高仿版”。

比如這個模型的本質,是用阿里的 Qwen 32B 這個參數較小的模型,去“學習”滿血版 Deepseek R1 671B 的輸出結果,據此調整參數,做出一個“高仿”的 Deepseek R1 ,所以叫“蒸餾”。


除了蒸餾模型外,你還能在大模型社區上看到很多這樣的“量化模型”,相當于成原版大模型的“壓縮版”,因為它們就是把大模型中精度極高的參數,轉化為精度沒那么高的參數,從而降低模型的體積和性能要求

很多個人電腦里部署的,都是這些壓縮或高仿版的模型~


講到這里,這些亂七八糟的名詞就差不多講完了。

我們也要多啰嗦一句:這期視頻的部分思路受到了前 OpenAI 的科學家安德烈·卡帕斯(Andrej Karpathy)在 YouTube 上這期長達 3 個半小時的口播視頻的啟發。如果有條件有耐心的話,你也可以去學習一個~


最后,我們不知道有多少人看到這里——看完的可以在評論里舉個手——

因為柴司有同學看完這期文稿后說,有點暈,像上課,信息太密集。但沒辦法,關于大模型的一切都很抽象,確實需要一點耐心才能看下來。


如果你覺得這對你有所幫助,那歡迎點贊轉發,讓我們知道這期視頻是不是真的有人看~

下期見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
殺紅眼!以色列揚言要滅伊朗,伊早已瞄準目標,或徹底摧毀以色列

殺紅眼!以色列揚言要滅伊朗,伊早已瞄準目標,或徹底摧毀以色列

夸大其詞的說
2026-04-05 01:04:12
“男子拔苗護祖墳”獲刑引關注 律師:維權不可濫用私力救濟,應優先民事化解

“男子拔苗護祖墳”獲刑引關注 律師:維權不可濫用私力救濟,應優先民事化解

紅星新聞
2026-04-04 14:01:08
NASA宇航員帶了4部iPhone登月,零重力拋手機畫面流出

NASA宇航員帶了4部iPhone登月,零重力拋手機畫面流出

碼上閑敘
2026-04-03 10:58:45
前妻和現任老婆的關系能有多離譜?網友:還是川渝家的妹子比較牛

前妻和現任老婆的關系能有多離譜?網友:還是川渝家的妹子比較牛

帶你感受人間冷暖
2026-02-16 00:05:11
美媒稱伊朗用多光譜攝像機識別美以戰機

美媒稱伊朗用多光譜攝像機識別美以戰機

財聯社
2026-04-05 00:35:05
楊麗萍“專屬男舞伴”墜樓自殺,跳得果決,和楊麗萍關系非同一般

楊麗萍“專屬男舞伴”墜樓自殺,跳得果決,和楊麗萍關系非同一般

一盅情懷
2026-04-03 07:49:11
許家印突發消息

許家印突發消息

新浪財經
2026-04-04 18:41:17
偉大的10-4!特魯姆普創紀錄進決賽,靜候趙心童,羅伯遜3冠夢碎

偉大的10-4!特魯姆普創紀錄進決賽,靜候趙心童,羅伯遜3冠夢碎

劉姚堯的文字城堡
2026-04-04 08:14:36
朱莉基因殺瘋了!19 歲女兒亮相 MV,五官復刻親媽,全網看呆

朱莉基因殺瘋了!19 歲女兒亮相 MV,五官復刻親媽,全網看呆

橙星文娛
2026-04-04 10:42:55
快訊!伊朗伊斯蘭革命衛隊宣布重大戰報了!

快訊!伊朗伊斯蘭革命衛隊宣布重大戰報了!

達文西看世界
2026-04-04 21:28:47
鄭州樓市四連跌,鄭州來勢洶洶,鄭州北龍湖房價從3.6萬降至3.5萬

鄭州樓市四連跌,鄭州來勢洶洶,鄭州北龍湖房價從3.6萬降至3.5萬

有事問彭叔
2026-04-04 16:42:30
歐洲各地襲擊猶太事件暴漲!猶太人陷入恐慌,請求政府派軍隊保護

歐洲各地襲擊猶太事件暴漲!猶太人陷入恐慌,請求政府派軍隊保護

步論天下事
2026-04-04 19:27:07
男人在沒得到女人身體時,他會百般討好

男人在沒得到女人身體時,他會百般討好

加油丁小文
2026-03-18 14:00:03
血戰85分鐘!王曼昱4-2橋本團滅日本女乒!評論區卻一片嘲諷

血戰85分鐘!王曼昱4-2橋本團滅日本女乒!評論區卻一片嘲諷

羅納爾說個球
2026-04-05 02:13:27
調查發現:高血脂人群若常吃糯米,不到3個月,血脂或有這5種變化

調查發現:高血脂人群若常吃糯米,不到3個月,血脂或有這5種變化

醫學原創故事會
2026-04-05 00:10:25
鄭麗文高鐵往返南京,清晨拜謁中山陵,392級臺階藏滿深意

鄭麗文高鐵往返南京,清晨拜謁中山陵,392級臺階藏滿深意

今墨緣
2026-04-03 21:26:19
簽完反華聲明,馬克龍離開日本,臨走前直接攤牌,G7峰會拒邀中國

簽完反華聲明,馬克龍離開日本,臨走前直接攤牌,G7峰會拒邀中國

阿離家居
2026-04-04 20:08:23
健身其實很簡單!堅持這4個王牌動作,每天20分鐘就夠了!

健身其實很簡單!堅持這4個王牌動作,每天20分鐘就夠了!

增肌減脂
2026-04-04 17:30:12
意媒:意大利球員在戰波黑前申請30萬歐獎金,加圖索勸阻后作罷

意媒:意大利球員在戰波黑前申請30萬歐獎金,加圖索勸阻后作罷

懂球帝
2026-04-04 21:17:58
國乒女隊也淪落?孫穎莎險勝,倆主力慘敗,教練組特殊安排被批評

國乒女隊也淪落?孫穎莎險勝,倆主力慘敗,教練組特殊安排被批評

三十年萊斯特城球迷
2026-04-04 19:59:09
2026-04-05 05:03:00
柴知道
柴知道
用有趣的方式,講有價值的知識
403文章數 84207關注度
往期回顧 全部

科技要聞

內存一年漲四倍!國產手機廠商集體漲價

頭條要聞

伊朗發動第七輪導彈襲擊 耶路撒冷攔截導彈升空

頭條要聞

伊朗發動第七輪導彈襲擊 耶路撒冷攔截導彈升空

體育要聞

剎不住的泰格·伍茲,口袋里的兩粒藥丸

娛樂要聞

Q女士反擊,否認逼宋寧峰張婉婷離婚

財經要聞

中微董事長,給半導體潑點冷水

汽車要聞

17萬級海豹07EV 不僅續航長還有9分鐘滿電的快樂

態度原創

旅游
藝術
房產
本地
軍事航空

旅游要聞

櫻郵聯動!郵輪游客赴顧村公園賞櫻,解鎖“一票雙享”新玩法

藝術要聞

你絕對不能錯過的夢幻性感攝影作品!

房產要聞

小陽春全面啟動!現房,才是這波行情里最穩的上車票

本地新聞

跟著歌聲游安徽,聽古村回響

軍事要聞

美軍又一架戰機墜毀 此前F-15E被擊落

無障礙瀏覽 進入關懷版