337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

歡迎OpenAI重返開源大模型賽道!談一談我關(guān)注的一些要點(diǎn)

0
分享至

美國西海岸時間2025年8月5日,OpenAI發(fā)布了兩款開源大模型——GPT-OSS 120B以及GPT-OSS-20B,目前這兩款模型均可以從Hugging Face平臺下載,用戶可以對其進(jìn)行修改定制和商業(yè)應(yīng)用。包括亞馬遜AWS、微軟Azure在內(nèi)的主流云平臺也已經(jīng)開始提供基于這兩款模型的服務(wù)。這是自從2019年11月以來,OpenAI第一次發(fā)布開源大模型。

歷史真是諷刺。OpenAI的名稱來源,就是“開放”“開源”,這曾被Sam Altman自詡為AI時代的核心精神和生存之道。可是從2019年初開始,OpenAI就處心積慮地偏離了開源軌道:那年2月,它以“安全問題”為借口,拒絕公布GPT-2的全部參數(shù)權(quán)重,只公布了一個7.74億參數(shù)的“部分模型”;直到當(dāng)年11月,在GPT-2乏人問津的情況下,它才羞羞答答地公布了全部15億參數(shù)。至于后來大放異彩的GPT-3、GPT-3.5以及GPT-4系列大模型,則既沒有公布過參數(shù)權(quán)重,也沒有公布過技術(shù)路線白皮書。

截止昨天,OpenAI成為了當(dāng)今全球AI大模型基礎(chǔ)研發(fā)第一集團(tuán)當(dāng)中,寥寥幾家“沒有任何新版開源大模型”的開發(fā)者之一。還有一家是Anthropic, 自從成立以來就從未發(fā)布過開源大模型。考慮到Anthropic本來就是對OpenAI不滿的離職員工成立的,還真驗證了一句話:“不是一家人,不進(jìn)一家門。”

在它們的競爭對手當(dāng)中,谷歌從2024年開始就維持著開源的Gemma系列大模型,與閉源的Gemini系列大模型齊頭并進(jìn);Meta的LLaMA系列大模型是當(dāng)今主流開源大模型的精神源頭,自不必說;來自法國的Mistral的第一版大模型就有開源版本;馬斯克的Grok也是在成立之初就公布了開源大模型;阿里巴巴的Qwen已經(jīng)成為衍生版本系列最多的開源大模型之一;更不要說DeepSeek了,如果不是開源,它絕不可能獲得這么大的影響力和應(yīng)用范圍。

有人肯定會追問:為什么要開源?對于競爭對手來說,開源當(dāng)然是好事,便于互相學(xué)習(xí)借鑒(以及抄襲)。對于全人類來說,開源當(dāng)然是好事,因為歷史一再證明開放能促進(jìn)技術(shù)進(jìn)步。但是對于OpenAI這種領(lǐng)先的開發(fā)者來說,為什么要開源呢?開源固然會吸引技術(shù)社區(qū)的更多關(guān)注、有助于形成良好的生態(tài)系統(tǒng),可是GPT已經(jīng)是全世界關(guān)注度最高的大模型了,開源還有什么實際意義呢?(除了為自己正名,甩掉“CloseAI”的帽子之外?)

答案很明確:開源大模型可以下載安裝到本地硬件設(shè)備里,完全從本地運(yùn)行,這對于一部分客戶相當(dāng)有吸引力。不妨總結(jié)一下:

  • 客戶可以把所有數(shù)據(jù)存儲在本地,而不是上傳到第三方平臺,從而最大限度地保護(hù)了數(shù)據(jù)安全。無論對于國家機(jī)密還是商業(yè)機(jī)密來說,這種安全性都很重要。

  • 客戶可以基于自身需求,對開源大模型進(jìn)行微調(diào)(fine-tune),從而契合特定行業(yè)應(yīng)用場景。醫(yī)療、金融等復(fù)雜或敏感行業(yè)對此需求尤其旺盛。

  • 對于預(yù)算有限的客戶來說,在本地硬件上運(yùn)行大模型,或許比購買閉源大模型使用權(quán)更劃算。例如GPT-OSS-2B甚至可以運(yùn)行在筆記本電腦上。

當(dāng)然,在本地部署開源大模型,就意味著客戶要為自己的信息安全和技術(shù)維護(hù)負(fù)責(zé)。在權(quán)衡利弊之后,許多大型行業(yè)客戶還是會更偏好開源大模型。這就是LLaMA系列大模型在歐美深受大企業(yè)歡迎的原因,也是DeepSeek在今年年初席卷國內(nèi)政企客戶的原因。DeepSeek的技術(shù)水平或許能與GPT-4o1相比,但是如果不是開源,它的應(yīng)用速度會非常慢,無論對B端還是C端都是如此!

現(xiàn)在,在闊別近六年之后,OpenAI終于重返開源大模型戰(zhàn)場。在一定程度上,肯定是受到了LLaMA, DeepSeek, Qwen乃至Grok等開源大模型的刺激;但是從商業(yè)角度看,這個決策早晚要做出。因為不管怎么說,有些企業(yè)客戶永遠(yuǎn)不可能把至關(guān)重要的數(shù)據(jù)上傳到第三方平臺;政府部門就更不可能了。與其把這片廣闊的市場留給競爭對手占領(lǐng),還不如自己去占領(lǐng)。如果競爭對手技術(shù)進(jìn)步的速度慢一點(diǎn),OpenAI重返開源賽道的速度或許也會慢一點(diǎn),但也只是慢一點(diǎn)而已。

這也就意味著,2025年成為了一個“開源之年”:國內(nèi)曾經(jīng)領(lǐng)先的百度,以及國外至今還在領(lǐng)先的OpenAI,都發(fā)布了開源大模型。Meta發(fā)布了最新的開源版本,阿里則明顯加快了開源版本的發(fā)布速度。此時此刻,整個世界上的主流大模型開發(fā)商,只有兩家完全沒有開源版本。除了上文提到的Anthropic之外,還有國內(nèi)的字節(jié)跳動——豆包大模型(及其前身云雀)目前尚未有任何形式的開源版本,字節(jié)跳動官方也完全沒有公布過開源計劃。不過單純從技術(shù)角度看,豆包尚不屬于全球第一集團(tuán),開源與否對大模型技術(shù)進(jìn)步的影響不大。

我們再探討下一個話題:本次OpenAI的開源,對全球大模型技術(shù)有什么影響?我不是技術(shù)開發(fā)者,只能從常識角度談一談。我的觀點(diǎn)是:影響是有的,但是有限。這一方面是因為OpenAI沒有開源其最新版本、最新技術(shù)(廢話,換了你也不會),另一方面是因為過去兩年外界對OpenAI技術(shù)路線的“猜測”還是比較成功的,八九不離十。


OpenAI公布的GPT-OSS兩個版本,其訓(xùn)練數(shù)據(jù)截止于2024年6月,訓(xùn)練結(jié)束于2024年8月,其性能大致與GPT-4o3以及o3 mini可比——后兩個模型發(fā)布至今已經(jīng)四個月了。很多評測指出,GPT-OSS-120B的表現(xiàn)優(yōu)于DeepSeek和Qwen的最新版本,其實這沒有提供任何新的信息,因為GPT-4o3的表現(xiàn)本來就優(yōu)于它們。這只能證明OpenAI相對于競爭對手至少還有幾個月的領(lǐng)先優(yōu)勢,而這也是我們早就知道了的事情。

在技術(shù)路線上,從OpenAI自家的白皮書里,我們大致能知道如下信息:

  • GPT-OSS采取混合專家架構(gòu),這一點(diǎn)早已被外界猜到。混合專家架構(gòu)是目前的主流,幾乎所有大模型都在采用。GPT-OSS 120B每層有128個專家,20B每層有32個專家,每個路徑會激活4個最擅長的專家回答——這些細(xì)節(jié)還是有用的。

  • GPT-OSS是在標(biāo)準(zhǔn)文本基礎(chǔ)上訓(xùn)練的,思維鏈(CoT, chain of thought)架構(gòu)不是在預(yù)訓(xùn)練階段、而是在后訓(xùn)練階段實現(xiàn)的。CoT是所謂“深度推理”大模型的基礎(chǔ),現(xiàn)在可以確定,OpenAI與其競爭對手一樣,是在后訓(xùn)練階段賦予CoT的。

  • 在后訓(xùn)練階段,與GPT-4o3一樣,GPT-OSS采取了CoT RL技術(shù)。后訓(xùn)練過程中還使用了外部API,以及RAG Agents等等,在此就不贅述了。在一定程度上,這證實了外界的猜測。

  • OpenAI沒有選擇在后訓(xùn)練階段壓制“大模型幻覺”,因為這樣做會降低CoT的透明度。所以,GPT-OSS深度推理模式的幻覺率很高,這或許是一切深度推理模型繞不過去的問題。

總而言之,上述大部分技術(shù)路線,是外界早已猜測到或者在爭辯之中的。某些技術(shù)細(xì)節(jié),例如后訓(xùn)練的具體手段和工具,或許會給外界很多啟發(fā),但帶來的改進(jìn)是有限的。話說回來,如果OpenAI真的還有什么“獨(dú)門秘籍”,大概也不會在白皮書當(dāng)中赤裸裸地公布。這份白皮書證明了一點(diǎn):過去兩年多,全球大模型開發(fā)者對OpenAI技術(shù)路線的猜測和模仿,大部分是正確的(或者說,OpenAI只承認(rèn)了其中正確的部分)。作為一個整體,人類模仿的力量是無窮的,因此在歷史上很少有技術(shù)領(lǐng)先者能夠單純依靠自己的力量,長期維持對領(lǐng)先技術(shù)的壟斷。

需要強(qiáng)調(diào)的是,GPT-OSS只是“開放權(quán)重”(Open Weight)大模型,不是完整意義上的“開源”大模型。它公布的只是參數(shù)及其取值(權(quán)重),一份34頁的技術(shù)白皮書,以及其他少量選擇性的信息。如果我們真的要以相同手段“復(fù)刻”一個成品,至少缺失如下環(huán)節(jié):

  • 訓(xùn)練中使用的各種“腳手架模型”,包括語料質(zhì)量、語料相似度檢測、語料清洗模型,以及用于“對齊”人類價值觀的Reward模型,等等。某些競爭對手會部分予以公布,但OpenAI還沒有。

  • 預(yù)訓(xùn)練階段使用的語料庫,這是一項核心技術(shù)秘密,尤其是在大模型訓(xùn)練語料使用量越來越大、優(yōu)質(zhì)語料越來越難找的情況下。Meta曾經(jīng)部分公布過LLaMA使用的語料,而OpenAI沒有公布。

  • 訓(xùn)練過程中使用的其他工具。如果是標(biāo)準(zhǔn)化工具還好,如果是獨(dú)家工具,那么就算披露了其名稱,外界也不可能模仿。

完全滿足上述“開源”條件的大模型非常罕見,尤其是商業(yè)公司,幾乎不可能發(fā)布這種“全面開源”的大模型。原因很簡單:大家發(fā)布開源大模型是為了滿足部分客戶的需求、培育開發(fā)者生態(tài),而不是方便別人抄襲。OpenAI這次提供的信息有價值,但不太足夠,這大概就是它想要達(dá)到的效果。這不禁讓我想起了某些科技巨頭的招股說明書——洋洋灑灑幾百頁,看起來提供了大量財務(wù)和業(yè)務(wù)信息,但是只要涉及到關(guān)鍵的用戶和技術(shù)問題,就以各種方式回避。在此就不點(diǎn)名了。

附帶說一句,OpenAI公布了GPT-OSS的訓(xùn)練細(xì)節(jié):基于英偉達(dá)H100 GPU,其中1200億參數(shù)版本消耗了210萬H100小時,200億版本則是前者的六分之一。從這里我們可以推斷出GPT-OSS訓(xùn)練使用的算力集群規(guī)模——假設(shè)訓(xùn)練時間為30天,則使用了2917張H100;若為45天,則使用了1944張。考慮到訓(xùn)練數(shù)據(jù)截止于2024年6月、完成于7月底或8月初,所以訓(xùn)練時間不太可能明顯超過45天。

因此,GPT-OSS還沒用上最新的Blackwell系列GPU,也沒有使用“萬卡集群”或更大規(guī)模的集群。這是否意味著頂尖大模型的訓(xùn)練算力需求其實沒那么高呢?且慢下結(jié)論,因為GPT-OSS畢竟不是OpenAI的當(dāng)家模型,只是OpenAI內(nèi)部訓(xùn)練的無數(shù)個模型之一。GPT-4的參數(shù)規(guī)模高達(dá)1.37萬億,是OSS的十倍以上,算力需求肯定會遠(yuǎn)過之。寶貴的B100/200 GPU可能完全被用于GPT-4.5以及GPT-5的訓(xùn)練,遺憾的是,OpenAI不太可能披露上面兩個模型的訓(xùn)練細(xì)節(jié)。

我猜,GPT-OSS可能是OpenAI最后幾個用Hopper架構(gòu)GPU訓(xùn)練的大模型之一;GPT-4.5以后的大模型可能完全是基于Blackwell訓(xùn)練的。但這只是我的猜測。至于不再用于訓(xùn)練的H100,則將轉(zhuǎn)而承擔(dān)推理任務(wù),畢竟深度推理模型的普及就意味著推理需求的大爆發(fā)。無論Scaling Law還成不成立,全世界的算力恐怕還需要增長3-4倍以滿足蓬勃的訓(xùn)練及推理需求。


本文沒有獲得OpenAI或其任何競爭對手的資助或背書。

本文作者并不持有OpenAI的任何股份,也不直接持有其競爭對手的任何股份。但是透過基金、信托計劃等持有其競爭對手的股份幾乎是不可避免的。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗這一場戰(zhàn)爭,以色列等了半世紀(jì)

伊朗這一場戰(zhàn)爭,以色列等了半世紀(jì)

黔有虎
2026-03-24 19:08:13
中央動真格救生育率!3代人拍手叫好的新提議,這次來真的了

中央動真格救生育率!3代人拍手叫好的新提議,這次來真的了

老特有話說
2026-03-24 15:24:12
伊朗稱收到美國信息,“正予以審視”!美國被曝向多國索要保護(hù)費(fèi):花2.5萬億美元結(jié)束戰(zhàn)爭;特朗普為動武辯護(hù):快攔截不住他們的導(dǎo)彈了

伊朗稱收到美國信息,“正予以審視”!美國被曝向多國索要保護(hù)費(fèi):花2.5萬億美元結(jié)束戰(zhàn)爭;特朗普為動武辯護(hù):快攔截不住他們的導(dǎo)彈了

每日經(jīng)濟(jì)新聞
2026-03-24 15:30:45
炸鍋了世界沉默了,普京這一跪,跪碎了多少人的“硬漢”濾鏡?

炸鍋了世界沉默了,普京這一跪,跪碎了多少人的“硬漢”濾鏡?

比利
2026-03-24 04:01:29
學(xué)醫(yī)后才知道,保護(hù)心血管最好的運(yùn)動,不是慢跑快走,而是這個

學(xué)醫(yī)后才知道,保護(hù)心血管最好的運(yùn)動,不是慢跑快走,而是這個

醫(yī)學(xué)科普匯
2026-03-23 21:55:03
網(wǎng)友揭露真相!別再罵跑步了!張雪峰身上扛著一整個商業(yè)帝國

網(wǎng)友揭露真相!別再罵跑步了!張雪峰身上扛著一整個商業(yè)帝國

南方健哥
2026-03-25 01:41:51
浙江一媽媽趁金價下跌花10萬給女兒買金手鐲、金手鏈:300多元克價時沒入手,想來就很后悔

浙江一媽媽趁金價下跌花10萬給女兒買金手鐲、金手鏈:300多元克價時沒入手,想來就很后悔

洪觀新聞
2026-03-24 10:47:03
高鐵站臺能否全面禁煙?12306回應(yīng)

高鐵站臺能否全面禁煙?12306回應(yīng)

中國新聞周刊
2026-03-24 20:43:03
42歲張雪峰離世,中年人該如何對待心臟隱患?

42歲張雪峰離世,中年人該如何對待心臟隱患?

急診夜鷹
2026-03-24 21:25:00
41歲張雪峰去世,成名10年爭議不斷,遺產(chǎn)曝光早已做好一切安排!

41歲張雪峰去世,成名10年爭議不斷,遺產(chǎn)曝光早已做好一切安排!

古希臘掌管松餅的神
2026-03-24 22:00:07
特朗普“臨陣變卦”:緩和窗口還是升級陷阱

特朗普“臨陣變卦”:緩和窗口還是升級陷阱

新京報
2026-03-24 20:29:53
米蘭官博悼念張雪峰:向他的家人致以深切哀悼和衷心慰問

米蘭官博悼念張雪峰:向他的家人致以深切哀悼和衷心慰問

懂球帝
2026-03-24 23:08:15
張雪峰曾說自己一年坐300趟飛機(jī),想靠運(yùn)動養(yǎng)生卻猝死在跑步機(jī)上

張雪峰曾說自己一年坐300趟飛機(jī),想靠運(yùn)動養(yǎng)生卻猝死在跑步機(jī)上

觀魚聽雨
2026-03-25 01:55:45
廣東一男子埋了50斤蘿卜在地里,遺忘了19年,想起后挖出,竟收獲了意外驚喜

廣東一男子埋了50斤蘿卜在地里,遺忘了19年,想起后挖出,竟收獲了意外驚喜

黎兜兜
2026-03-24 21:25:22
張雪峰去世:他曾說過,如果有一天自己死了,希望成為一代人的回憶。

張雪峰去世:他曾說過,如果有一天自己死了,希望成為一代人的回憶。

貼小君
2026-03-24 22:28:22
做人一定不要像張雪峰

做人一定不要像張雪峰

羅sir財話
2026-03-24 21:59:56
多名網(wǎng)友被美團(tuán)刪除手機(jī)里幾百張照片,美團(tuán)道歉稱承擔(dān)全部費(fèi)用和損失

多名網(wǎng)友被美團(tuán)刪除手機(jī)里幾百張照片,美團(tuán)道歉稱承擔(dān)全部費(fèi)用和損失

Vista氫商業(yè)
2026-03-24 18:09:03
國務(wù)院令!3月30日起全國施行,土葬合法,殯葬業(yè)暴利徹底涼涼!

國務(wù)院令!3月30日起全國施行,土葬合法,殯葬業(yè)暴利徹底涼涼!

今朝牛馬
2026-03-24 22:13:12
大瓜!知名經(jīng)濟(jì)學(xué)家巴曙松失聯(lián)

大瓜!知名經(jīng)濟(jì)學(xué)家巴曙松失聯(lián)

新浪財經(jīng)
2026-03-24 20:46:06
臺積電突然斷供?直接甩出“稀土”,外媒:這才是真正的殺手锏!

臺積電突然斷供?直接甩出“稀土”,外媒:這才是真正的殺手锏!

瑛派兒老黃
2026-03-24 18:56:06
2026-03-25 07:07:00
互聯(lián)網(wǎng)怪盜團(tuán)丶 incentive-icons
互聯(lián)網(wǎng)怪盜團(tuán)丶
互聯(lián)網(wǎng)行業(yè)觀察者
400文章數(shù) 374關(guān)注度
往期回顧 全部

科技要聞

年僅41歲,教育名師張雪峰猝然離世

頭條要聞

美方擬停火一個月 15點(diǎn)結(jié)束伊朗沖突方案披露

頭條要聞

美方擬停火一個月 15點(diǎn)結(jié)束伊朗沖突方案披露

體育要聞

NBA最強(qiáng)左手射手,是個右撇子

娛樂要聞

張雪峰經(jīng)搶救無效不幸去世 年僅41歲

財經(jīng)要聞

特朗普再TACO 可以押注伊朗局勢降級?

汽車要聞

尚界Z7雙車預(yù)售22.98萬起 問界M6預(yù)售26.98萬起

態(tài)度原創(chuàng)

本地
數(shù)碼
房產(chǎn)
公開課
軍事航空

本地新聞

春日吃花第一站——云南

數(shù)碼要聞

雷蛇新品來襲!毒蝰V4和巨甲蟲V2專業(yè)版亮相

房產(chǎn)要聞

北上廣深二手房集體回暖!三月小陽春行情全面兌現(xiàn)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

以色列媒體:美國計劃于4月9日結(jié)束對伊朗戰(zhàn)爭

無障礙瀏覽 進(jìn)入關(guān)懷版