337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI大佬爆料:本科生靠一篇博客殺進(jìn)OpenAI!沒博士,0篇論文

0
分享至


新智元報道

編輯:Aeneas

【新智元導(dǎo)讀】他沒博士、沒論文,卻靠公開改進(jìn)論文和跑基準(zhǔn)測試,直接打動大佬、入職OpenAI!Noam Brown親證:行動力和開源項(xiàng)目,才是逆襲頂級AI實(shí)驗(yàn)室的真正通行證。

就在今天,OpenAI傳奇研究員 、德?lián)銩I之父Noam Brown的一篇文章被刷屏了。

沒有博士學(xué)位,沒有研究背景,是否有可能在頂尖AI實(shí)驗(yàn)室找到工作?

這聽起來像天方夜譚,但這個世界上奇妙的地方就在于,這樣的例子還真不少。

比如,一個叫Keller Jordan的小哥,僅僅憑借一篇開源博客,就成功入職OpenAI,成為一名機(jī)器學(xué)習(xí)研究員!


是的,他沒有寫論文,而是將完整的研究過程、代碼和實(shí)驗(yàn)結(jié)果在GitHub上完全開源。

最后Noam Brown總結(jié)道:雖然如今開放研究的空間比以前小了,但是在已有論文的基礎(chǔ)上做改進(jìn),依然是一個向?qū)嶒?yàn)室研究員證明自己能力的絕佳方式!


這種做法,也會讓對方更有信心,為你爭取到一次面試機(jī)會。

從AI審核做起,走向人生巔峰

2020年,Keller畢業(yè)于UCSD,獲得數(shù)學(xué)和計算機(jī)的雙學(xué)士學(xué)位。

畢業(yè)時,他從未發(fā)表過任何一篇論文。

第一份工作, 是在一家人工智能內(nèi)容審核初創(chuàng)公司。


有一天,他看到谷歌研究大牛Behnam最近發(fā)表的一篇論文,想到了一個改進(jìn)思路,于是給Behnam發(fā)了一封郵件。

Behnam看到郵件后,同意指導(dǎo)這個年輕人。在沒有人脈、沒有背景的情況下,小哥就這樣和大佬搭上了線。

更神奇的來了,這段合作,最終促成了一篇ICLR論文。

再后來,Keller的一項(xiàng)表現(xiàn)亮眼的工作「NanoGPT speed run」,直接改變了全新的研究范式,這不僅讓特斯拉AI負(fù)責(zé)人Karpathy稱贊不已,還引起了OpenAI的注意。

這不是一篇傳統(tǒng)意義上的論文,卻成為Keller命運(yùn)的轉(zhuǎn)折點(diǎn)。

因?yàn)樗械墓ぷ鞫加型暾涗洠页晒闪炕⑦M(jìn)展清晰,所以,OpenAI毫不猶豫地向他伸出了橄欖枝。

讓Karpathy直呼「干得漂亮」

NanoGPT是Karpathy開源的一個項(xiàng)目,是一個極簡的輕量級GPT訓(xùn)練和微調(diào)框架。

而Keller喜歡干的一件事,就是不斷刷新NanoGPT的訓(xùn)練速度。為此,他不斷嘗試新的方法。

在2024年10月,他跑出了一個成果,將訓(xùn)練Transformer模型的token效率提高了3.8倍!


這也讓他直接贏得Karpathy的盛贊。

NanoGPT speedrun的目標(biāo)聽起來非常簡單:在固定模型規(guī)模(124M Transformer)和固定驗(yàn)證集損失目標(biāo)(3.28 val loss)的前提下,用盡可能少的token、盡可能短的時間完成訓(xùn)練。

Keller所做的,就是基于Karpathy的nanoGPT/llm.c PyTorch訓(xùn)練代碼,將其改造為一個可復(fù)現(xiàn)、可量化、可對比的基準(zhǔn)。

最終,他讓Token效率提升了3.8倍,而且從原本約10B tokens降低到2.7B tokens,即可達(dá)到目標(biāo)loss。


這意味著,這個改進(jìn)可以被嚴(yán)格驗(yàn)證,是一個硬指標(biāo)。

讓實(shí)驗(yàn)便宜到「人人能參與」

而且,Keller還非常有獨(dú)創(chuàng)性。

與很多動輒需要數(shù)十萬、上百萬算力成本的訓(xùn)練不同,他在設(shè)計這個speedrun時,有一個非常明確的原則:讓嘗試新想法的成本足夠低。

為此,他刻意做了幾件事,比如讓代碼壓縮到極簡,只有537行;在8×H100的全新環(huán)境下,讓安裝和運(yùn)行的時間僅為20分鐘;甚至單次的嘗試成本,低至8美元。

即使在今天的AI研究環(huán)境中,這也是一個極其罕見的設(shè)計選擇。

這就意味著,從此不是只有大實(shí)驗(yàn)室才能參與,所有個人研究者、學(xué)生、獨(dú)立工程師都能快速驗(yàn)證想法,創(chuàng)新不會再被算力門檻擋住。

被OpenAI注意到

就這樣,NanoGPT speedrun成為了Keller逆襲之路上的關(guān)鍵一環(huán)。

一切都表明,這個成果非常硬:代碼、日志、實(shí)驗(yàn)都完全可復(fù)現(xiàn);在指標(biāo)上,完全無法作弊;甚至,還有開發(fā)社區(qū)的真實(shí)參與。

甚至連驗(yàn)證方式都被設(shè)計得極其嚴(yán)謹(jǐn):每一次speedrun的log文件中,都會包含完整代碼副本。

任何人想復(fù)現(xiàn)一個新紀(jì)錄,只需調(diào)用log文件即可。

Muon橫空出世

而接下來,整件事情發(fā)展到了高潮。

在2024年底,他設(shè)計的神經(jīng)網(wǎng)絡(luò)隱藏層的優(yōu)化器Muon橫空出世,直接憑卓越性能刷新了NanoGPT和CIFAR-10訓(xùn)練速度的世界紀(jì)錄!


Muon,是一種為神經(jīng)網(wǎng)絡(luò)2D參數(shù)隱藏層設(shè)計的優(yōu)化器。它的核心思想是,SGD-動量法(SGD-momentum)生成的更新矩陣,通過Newton-Schulz迭代進(jìn)行正交化處理,生成接近于半正交矩陣的更新,從而提升訓(xùn)練效率。

它的實(shí)現(xiàn)簡單高效,支持在bf16精度下穩(wěn)定運(yùn)行,顯著降低了計算開銷。


比起AdamW優(yōu)化器,Muon在多個任務(wù)中,表現(xiàn)非常驚艷。

雖然AdamW能讓GPT、LLaMA、Qwen學(xué)得又穩(wěn)又快,但隨著模型參數(shù)從幾億增加到幾千億,訓(xùn)練時間從幾天變成幾周甚至幾個月,AdamW的局限性開始顯現(xiàn)。

雖然還未成為主流通用優(yōu)化器,但Muon的出現(xiàn)表明,它很可能是AI模型訓(xùn)練領(lǐng)域的一次重大基礎(chǔ)創(chuàng)新。

入職OpenAI

Muon在開發(fā)者社區(qū)的影響力越來越大,也就在同時,Keller于2024年12月,正式加入OpenAI。


有趣的是,Keller在2月份表示,雖然Muon火了,也幫他進(jìn)入了OpenAI,但是他不會給Muon寫一篇論文。

在他看來,與其在arXiv發(fā)一篇大概率被「淹沒」的論文,還不如繼續(xù)老老實(shí)實(shí)地研究自己的優(yōu)化器。

畢竟在他看來,大多數(shù)優(yōu)化器論文都是虛假的水文。


這些人,都成功逆襲大公司

此外,Noam Brown還列舉了其他成功的案例。

比如被谷歌DeepMind發(fā)掘的Sholto Douglas。


他在X上十分低調(diào),從未以一作身份發(fā)表過任何引人注目的論文,入行時間也只有一年半,然而,他卻是Gemini成功的背后關(guān)鍵人物。


還在麥肯錫工作時,Sholto就逐漸確信AI會迎來爆發(fā),于是開始在業(yè)余時間做自己的項(xiàng)目,還在Jax的GitHub上提出不少有洞見的問題。

這些表現(xiàn)打動了James Bradbury,最終被邀請到谷歌DeepMind去面試。

Andy Jones是一位半退休的量化分析師,在測試時計算還沒火起來之前,他就寫了一篇論文,畢竟了比較了擴(kuò)大預(yù)訓(xùn)練規(guī)模和擴(kuò)大測試時計算量的影響。


這篇論文讓人印象極其深刻,并是因?yàn)樗⑿铝四硞€基準(zhǔn),而是做出了非常聰明的設(shè)計選擇,自己編寫了GPU加速的環(huán)境,并且進(jìn)行了嚴(yán)謹(jǐn)細(xì)致的消融實(shí)驗(yàn)。

最終,Andy Jones入職Anthropic。


參考資料:

https://x.com/polynoamial/status/2014084431062114744

https://x.com/polynoamial/status/2014084432685326485

https://x.com/polynoamial/status/2014084509575291163


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
布朗大學(xué)教授柏文莉談《閨思》:被遮蔽的妓與妾的人生

布朗大學(xué)教授柏文莉談《閨思》:被遮蔽的妓與妾的人生

澎湃新聞
2026-03-07 11:00:30
61歲雪梨自曝被TVB高層性侵,滿臉驚恐:不能說名字,會死人的!

61歲雪梨自曝被TVB高層性侵,滿臉驚恐:不能說名字,會死人的!

潮鹿逐夢
2026-03-05 22:34:12
為了把張格爾押到京師凌遲,道光花了多少代價?四個字:不計成本

為了把張格爾押到京師凌遲,道光花了多少代價?四個字:不計成本

南書房
2026-03-08 08:00:12
張?zhí)m曝大S兒子有心理陰影!婆孫共寢,小箖箖的問話,看哭網(wǎng)友們

張?zhí)m曝大S兒子有心理陰影!婆孫共寢,小箖箖的問話,看哭網(wǎng)友們

潮鹿逐夢
2026-03-07 18:46:57
騰訊QQ開放OpenClaw官方接入,單個賬號最多創(chuàng)建5個機(jī)器人

騰訊QQ開放OpenClaw官方接入,單個賬號最多創(chuàng)建5個機(jī)器人

IT之家
2026-03-07 16:43:18
萬萬沒想到!兩會最火提案不是醫(yī)療和就業(yè),而是霍啟剛的這一舉動

萬萬沒想到!兩會最火提案不是醫(yī)療和就業(yè),而是霍啟剛的這一舉動

查爾菲的筆記
2026-03-05 20:24:50
6天崩盤:伊朗“打幾個月”的豪言為何瞬間破產(chǎn)

6天崩盤:伊朗“打幾個月”的豪言為何瞬間破產(chǎn)

斌聞天下
2026-03-05 22:52:36
這三個國家原本屬于中國,獨(dú)立后現(xiàn)狀凄慘,如今他們后悔了嗎?

這三個國家原本屬于中國,獨(dú)立后現(xiàn)狀凄慘,如今他們后悔了嗎?

人間無味啊
2026-02-06 06:13:50
圈內(nèi)人:海港定位球腳法越來越差,引進(jìn)的外援不是進(jìn)攻核心

圈內(nèi)人:海港定位球腳法越來越差,引進(jìn)的外援不是進(jìn)攻核心

懂球帝
2026-03-08 13:08:48
澤連斯基威脅歐爾班之后,匈牙利搶奪烏克蘭近1億美元資產(chǎn)

澤連斯基威脅歐爾班之后,匈牙利搶奪烏克蘭近1億美元資產(chǎn)

山河路口
2026-03-07 15:41:44
以色列狂轟濫炸黎巴嫩首都!馬克龍放話:敢派地面部隊(duì),我就出手

以色列狂轟濫炸黎巴嫩首都!馬克龍放話:敢派地面部隊(duì),我就出手

達(dá)文西看世界
2026-03-07 16:36:01
0-2大冷!中國球員單打全出局,鄭欽文輸球原因曝光,3個環(huán)節(jié)拉胯

0-2大冷!中國球員單打全出局,鄭欽文輸球原因曝光,3個環(huán)節(jié)拉胯

侃球熊弟
2026-03-08 09:52:58
周末再放狠話!明天周一A股這幾大板塊可能暴漲,這幾個方向或涼透

周末再放狠話!明天周一A股這幾大板塊可能暴漲,這幾個方向或涼透

股市皆大事
2026-03-08 11:17:24
伊朗的潰敗:對外是戰(zhàn)狼皆因?qū)?nèi)是惡狼

伊朗的潰敗:對外是戰(zhàn)狼皆因?qū)?nèi)是惡狼

黔有虎
2026-03-08 09:43:16
生理性喜歡顯而易見!51歲周迅被曝有新戀情,男方身份被扒不簡單

生理性喜歡顯而易見!51歲周迅被曝有新戀情,男方身份被扒不簡單

阿纂看事
2026-03-07 18:29:02
蘇聯(lián)“人猿雜交”實(shí)驗(yàn):5名女孩與11只猩猩參與,結(jié)局如何?

蘇聯(lián)“人猿雜交”實(shí)驗(yàn):5名女孩與11只猩猩參與,結(jié)局如何?

談史論天地
2026-02-28 13:35:18
90年小伙打工被誣陷偷東西,他沒反抗,只讓工廠老板看了眼他的背

90年小伙打工被誣陷偷東西,他沒反抗,只讓工廠老板看了眼他的背

牛魔王與芭蕉扇
2025-11-06 10:09:31
91歲沈陽前首富,套現(xiàn)超2.5億

91歲沈陽前首富,套現(xiàn)超2.5億

觀瀾商業(yè)
2026-03-07 20:59:10
花青素主要在藍(lán)莓的果皮里 科普中國發(fā)文:不建議大家買超大藍(lán)莓

花青素主要在藍(lán)莓的果皮里 科普中國發(fā)文:不建議大家買超大藍(lán)莓

中國能源網(wǎng)
2026-03-06 17:53:07
李賀:我爸是李雙江,我弟是李天一,我在沒有父愛的環(huán)境中成長

李賀:我爸是李雙江,我弟是李天一,我在沒有父愛的環(huán)境中成長

談古論今歷史有道
2026-03-07 10:20:03
2026-03-08 15:39:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14669文章數(shù) 66667關(guān)注度
往期回顧 全部

科技要聞

OpenClaw最大的推手是閑魚和小紅書

頭條要聞

媒體:伊朗用"窮人巡航導(dǎo)彈"反擊美以 美盟友聞之色變

頭條要聞

媒體:伊朗用"窮人巡航導(dǎo)彈"反擊美以 美盟友聞之色變

體育要聞

大傷后被交易,他說:22歲的我已經(jīng)死了

娛樂要聞

周迅新戀情曝光,李亞鵬等人已成過去

財經(jīng)要聞

油價要失控?

汽車要聞

9分鐘充飽 全新騰勢Z9GT首搭閃充技術(shù)26.98萬起

態(tài)度原創(chuàng)

家居
數(shù)碼
本地
時尚
公開課

家居要聞

暖棕撞色 輕法奶油風(fēng)

數(shù)碼要聞

微軟和英偉達(dá)聯(lián)手丟“王炸”!所有游戲玩家都能用上光追了?

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

2026春夏一定要擁有的6只包,好看又百搭

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版