337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

不用一個字,MIT團(tuán)隊(duì)讓細(xì)胞自動機(jī)教會了大模型推理

0
分享至


來源:DeepTech深科技

運(yùn)營/排版:何晨龍

1970 年,數(shù)學(xué)家約翰·康威發(fā)明了“生命游戲”(Game of Life)。在一塊無限延伸的棋盤上,每個方格非生即死,遵循幾條極其簡單的規(guī)則:活細(xì)胞如果鄰居太少就會孤獨(dú)而死,太多則因擁擠而亡;死細(xì)胞恰好有三個活鄰居就會復(fù)活。

沒有人下棋,沒有人操控,但這些簡單規(guī)則跑起來之后,屏幕上會涌現(xiàn)出滑翔機(jī)、脈沖槍、甚至可以模擬圖靈機(jī)的復(fù)雜結(jié)構(gòu)。半個多世紀(jì)以來,這個實(shí)驗(yàn)一直被視為復(fù)雜性科學(xué)的經(jīng)典演示,展示簡單規(guī)則如何生成無窮復(fù)雜的行為。


圖丨康威的“生命游戲”(來源:WikiPedia)

沒人想過這些東西能教 AI 說話。直到現(xiàn)在。

MIT Improbable AI 實(shí)驗(yàn)室 Pulkit Agrawal 團(tuán)隊(duì)在今年 3 月發(fā)表了一篇論文,提出了一個聽起來相當(dāng)不合常理的想法:用類似“生命游戲”的細(xì)胞自動機(jī)生成的數(shù)據(jù),去預(yù)訓(xùn)練大型語言模型。這些數(shù)據(jù)不包含任何文字、任何語義,只是一個 12×12 網(wǎng)格上像素不斷演化的軌跡。


圖丨Pulkit Agrawal(來源:MIT CSAIL)

但實(shí)驗(yàn)結(jié)果顯示,在這些純粹的“動態(tài)圖案”上訓(xùn)練過的模型,在隨后的自然語言學(xué)習(xí)中表現(xiàn)得更好,困惑度(perplexity)降低了最多 6%,收斂速度加快了最多 1.6 倍。更讓人意外的是,僅用 1.64 億個細(xì)胞自動機(jī) token 做預(yù)訓(xùn)練,效果竟然超過了用 16 億個真實(shí)英語文本(來自 Common Crawl 數(shù)據(jù)集 C4)做同樣的預(yù)訓(xùn)練。

這項(xiàng)工作的核心思路可以用一句話概括:語言模型真正需要學(xué)習(xí)的,可能不是語言本身,而是語言背后的計(jì)算結(jié)構(gòu)。


圖丨NCA 預(yù)預(yù)訓(xùn)練到語言預(yù)訓(xùn)練的概覽(來源:arXiv)

研究團(tuán)隊(duì)使用的是“神經(jīng)細(xì)胞自動機(jī)”(Neural Cellular Automata, NCA),這是經(jīng)典細(xì)胞自動機(jī)的一種推廣。傳統(tǒng)的細(xì)胞自動機(jī)(比如康威的生命游戲)使用固定的規(guī)則,而 NCA 把規(guī)則替換成了一個小型神經(jīng)網(wǎng)絡(luò),具體來說是一個 3×3 卷積加上一層 MLP。

每次生成訓(xùn)練數(shù)據(jù)時,研究者隨機(jī)初始化這個網(wǎng)絡(luò)的權(quán)重,等于隨機(jī)抽取一條全新的動力學(xué)規(guī)則,然后讓它在網(wǎng)格上跑出一段時空演化軌跡。這些軌跡被切割成 2×2 的圖像塊,映射為 token 序列,再用標(biāo)準(zhǔn)的下一個 token 預(yù)測任務(wù)來訓(xùn)練 transformer。

換句話說,模型拿到的每一條序列,都來自一個它從未見過的規(guī)則。要預(yù)測下一個 token,它必須在上下文中推斷出這條隱藏規(guī)則,然后應(yīng)用它。這和語言模型在真實(shí)文本上做的事情存在某種深層對應(yīng)。

斯坦福大學(xué)馬騰宇與 Percy Liang 團(tuán)隊(duì)在 2022 年的工作中就曾論證,下一個 token 預(yù)測本質(zhì)上是一種隱式的貝葉斯推斷:模型從已有的文本中推斷出潛在的“生成概念”,再據(jù)此預(yù)測接下來會出現(xiàn)什么。NCA 訓(xùn)練把這個過程提純了。自然語言中混雜著語義快捷方式和共現(xiàn)先驗(yàn),模型可以“投機(jī)取巧”;而 NCA 數(shù)據(jù)中沒有任何語義可以依賴,每一個 token 都在迫使模型做純粹的規(guī)則推斷。

這套方法被稱為“pre-pre-training”,即在正式的語言預(yù)訓(xùn)練之前,先用合成數(shù)據(jù)做一輪“預(yù)預(yù)訓(xùn)練”。

訓(xùn)練流程分三步走:先在 NCA 數(shù)據(jù)上訓(xùn)練 transformer 的非嵌入層權(quán)重,再在自然語言語料(網(wǎng)頁文本、代碼或數(shù)學(xué)文本)上做標(biāo)準(zhǔn)預(yù)訓(xùn)練,最后是針對具體任務(wù)的微調(diào)。研究者測試了三個下游語料庫,分別是 OpenWebText(網(wǎng)頁文本,約 90 億 token)、OpenWebMath(數(shù)學(xué)文本,約 40 億 token)和 CodeParrot(代碼,約 130 億 token),在所有三個領(lǐng)域上都觀察到了持續(xù)的改善。


圖丨NCA 預(yù)預(yù)訓(xùn)練在多個領(lǐng)域改進(jìn)并加速了語言模型預(yù)訓(xùn)練(來源:arXiv)

在推理基準(zhǔn)測試上,收益同樣可見。GSM8K 數(shù)學(xué)推理測試中,NCA 預(yù)訓(xùn)練將 pass@1 從 3.8% 提升到 4.4%;HumanEval 代碼生成測試中,pass@1 從 6.8% 提升到 7.5%;BigBench-Lite 綜合推理測試中,pass@4 從 25.9% 躍升至 36.5%。

絕對數(shù)字不算大,這些畢竟是 16 億參數(shù)的模型,而非千億級的商用系統(tǒng),但對照實(shí)驗(yàn)的一致性指向了一個清晰的信號:從非語言數(shù)據(jù)中習(xí)得的某些東西,確實(shí)在幫助模型處理語言任務(wù)。

那么,到底是什么被轉(zhuǎn)移了?研究者做了一個拆解實(shí)驗(yàn):在 NCA 預(yù)訓(xùn)練完成后,選擇性地重新初始化模型的不同組件(注意力層、MLP 層、LayerNorm 層),然后觀察下游表現(xiàn)的變化。結(jié)果非常明確:重新初始化注意力權(quán)重造成的性能損失最大,遠(yuǎn)超其他組件。這意味著注意力層承載了最多的可遷移結(jié)構(gòu)。

MLP 層的效果則因領(lǐng)域而異:在 OpenWebText 上,保留 NCA 階段的 MLP 權(quán)重反而會干擾語言學(xué)習(xí);但在 CodeParrot 上,影響可以忽略不計(jì)。

這一發(fā)現(xiàn)和最近 Jelassi 等人(2025 年)對混合專家(MoE)架構(gòu)的分析形成了一定程度的呼應(yīng),那項(xiàng)工作表明擴(kuò)大 MLP 參數(shù)主要增強(qiáng)的是記憶能力而非推理能力。兩相對照,一幅功能分工的圖景浮現(xiàn)出來:注意力層負(fù)責(zé)學(xué)習(xí)通用的依賴追蹤和上下文推斷機(jī)制,MLP 層則傾向于存儲特定領(lǐng)域的模式和統(tǒng)計(jì)規(guī)律。正因如此,注意力層從 NCA 到語言的遷移是“萬金油”式的,而 MLP 的遷移效果取決于源域和目標(biāo)域之間的匹配程度。

研究中另一個值得關(guān)注的發(fā)現(xiàn)有關(guān)于復(fù)雜性匹配。團(tuán)隊(duì)使用 gzip 壓縮率作為 NCA 軌跡復(fù)雜性的度量,壓縮率低意味著數(shù)據(jù)更有規(guī)律、更可預(yù)測,壓縮率高則意味著更豐富的時空結(jié)構(gòu)。他們把 NCA 數(shù)據(jù)按壓縮率分成幾個區(qū)間(20-30%、30-40%、40-50%、50% 以上),分別測試各區(qū)間對不同下游領(lǐng)域的遷移效果。

結(jié)果表明,網(wǎng)頁文本和數(shù)學(xué)文本從高復(fù)雜度 NCA(50%+ 壓縮率)中受益最大,而代碼領(lǐng)域的最優(yōu)區(qū)間在中等復(fù)雜度(30-40%)。有意思的是,這恰好與目標(biāo)語料自身的復(fù)雜度特征對齊,OpenWebText 和 OpenWebMath 的 gzip 壓縮率在 60-70%,CodeParrot 則只有 32%。

這意味著,合成數(shù)據(jù)不是“越多越好”或“越復(fù)雜越好”,而是需要與目標(biāo)領(lǐng)域的計(jì)算特征相匹配。研究者稱之為“domain-targeted data design”,一種自然語言訓(xùn)練中不存在的調(diào)控杠桿。你無法輕易改變英語的統(tǒng)計(jì)特性,但你可以調(diào)整 NCA 的規(guī)則空間、字母表大小、復(fù)雜度分布,讓它精確匹配你想要訓(xùn)練的能力。

這項(xiàng)工作的理論背景可以追溯到幾條學(xué)術(shù)脈絡(luò)。一條是 MIT 同校 Phillip Isola 團(tuán)隊(duì)在 2024 年提出的“柏拉圖表征假說”(Platonic Representation Hypothesis),核心觀點(diǎn)是不同模態(tài)、不同架構(gòu)的 AI 模型,隨著規(guī)模增大,內(nèi)部表征正在趨同,仿佛都在逼近對現(xiàn)實(shí)世界的某種共同的統(tǒng)計(jì)模型。如果這個假說成立,那么從非語言數(shù)據(jù)中能學(xué)到與語言相通的表征,就不那么令人驚訝了。

,它指出對于計(jì)算能力有限的觀察者而言,簡單的確定性過程也能生成需要學(xué)習(xí)才能把握的結(jié)構(gòu)信息。經(jīng)典信息論認(rèn)為確定性變換不能增加信息量,但那假設(shè)的是全知全能的觀察者;對于一個有限容量的 transformer 來說,生命游戲中涌現(xiàn)的滑翔機(jī)和碰撞圖案,確實(shí)包含了它必須“理解”才能預(yù)測的東西。

關(guān)于“為什么 1.6 億 token 的自動機(jī)數(shù)據(jù)能勝過 16 億 token 的英語”,研究者給出的解釋是:在遠(yuǎn)低于計(jì)算最優(yōu)規(guī)模的 token 預(yù)算下(Chinchilla 定律建議 16 億參數(shù)模型需要約 320 億 token),自然語言訓(xùn)練主要在學(xué)習(xí)淺層的局部模式,比如詞匯搭配、句法片段這些“表面功夫”。

而 NCA 數(shù)據(jù)由于每條序列都對應(yīng)一個獨(dú)特的動力學(xué)規(guī)則,多樣性極高,冗余性極低,每個 token 都在訓(xùn)練模型做深層的規(guī)則推斷。加之 Abbas 等人(2023 年)的研究已經(jīng)表明大規(guī)模自然語言數(shù)據(jù)集內(nèi)部存在大量語義冗余,NCA 在 token 效率上的優(yōu)勢就變得可以理解了。

不過,目前這個實(shí)驗(yàn)的規(guī)模還限于 16 億參數(shù),距離工業(yè)級的千億參數(shù)模型還有數(shù)量級的差距。NCA 預(yù)訓(xùn)練的增益隨模型規(guī)模增大而遞減,400M 模型改善了 8.6%,1.6B 模型改善了 5.7%,這個趨勢在更大規(guī)模上是否會完全消失,目前還不清楚。

此外,對于較大字母表(n=10, 15)的 NCA,收益在一定 token 預(yù)算后出現(xiàn)飽和甚至下降,說明簡單地“生成更多 NCA 數(shù)據(jù)”并不是萬能解法。如何從理論上指導(dǎo)合成數(shù)據(jù)的生成,使其精確匹配目標(biāo)領(lǐng)域的計(jì)算特征,仍然是一個開放的研究問題。

但研究者們的期望不止于此。論文的結(jié)尾寫道,他們的最終愿景是完全用干凈的合成數(shù)據(jù)做預(yù)訓(xùn)練,只在最后階段用少量經(jīng)過精心篩選的自然語言來獲取語義。當(dāng)前的“預(yù)預(yù)訓(xùn)練”框架是這個范式的早期原型。

參考資料:

1.https://arxiv.org/pdf/2603.10055

閱讀最新前沿科技趨勢報告,請?jiān)L問21世紀(jì)關(guān)鍵技術(shù)研究院的“未來知識庫”


未來知識庫是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費(fèi)閱讀和下載)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
黑馬電影11天狂攬23億,沈騰吳京望塵莫及

黑馬電影11天狂攬23億,沈騰吳京望塵莫及

楓塵余往逝
2026-03-30 16:26:59
人有沒有糖尿病,吃飯就知道?有糖尿病的人,吃飯常有這5個表現(xiàn)

人有沒有糖尿病,吃飯就知道?有糖尿病的人,吃飯常有這5個表現(xiàn)

老張健康趣談
2026-03-30 12:49:55
空姐竟遭同事偷拍。。。

空姐竟遭同事偷拍。。。

微微熱評
2026-03-29 20:57:19
張雪峰三大遺憾!50萬沒留住父親、對不起妻子,還有誤女兒前程

張雪峰三大遺憾!50萬沒留住父親、對不起妻子,還有誤女兒前程

八斗小先生
2026-03-27 16:18:15
梅德韋杰夫諷刺烏向海灣國家兜售無人機(jī)防御方案

梅德韋杰夫諷刺烏向海灣國家兜售無人機(jī)防御方案

參考消息
2026-03-30 14:48:03
終身追殺令生效,什葉派出終極殺招,特朗普與內(nèi)塔尼亞胡無處可逃

終身追殺令生效,什葉派出終極殺招,特朗普與內(nèi)塔尼亞胡無處可逃

小舟談歷史
2026-03-08 08:00:04
美國也攔不住!內(nèi)塔尼亞胡暴走,下達(dá)末日死令,中東真要吃核彈?

美國也攔不?。?nèi)塔尼亞胡暴走,下達(dá)末日死令,中東真要吃核彈?

混沌錄
2026-03-30 16:45:28
中年男人無妻是啥體驗(yàn)?網(wǎng)友:沒錢苦一輩子,跟結(jié)婚不結(jié)婚沒關(guān)系

中年男人無妻是啥體驗(yàn)?網(wǎng)友:沒錢苦一輩子,跟結(jié)婚不結(jié)婚沒關(guān)系

帶你感受人間冷暖
2026-03-28 17:20:05
女生要主動起來跟想象中完全不一樣!網(wǎng)友:讓我遞毛巾 瞬間開竅了

女生要主動起來跟想象中完全不一樣!網(wǎng)友:讓我遞毛巾 瞬間開竅了

另子維愛讀史
2026-01-26 18:39:06
網(wǎng)紅小陳因抑郁癥離世,年僅27歲,gay圈好友紛紛發(fā)文悼念

網(wǎng)紅小陳因抑郁癥離世,年僅27歲,gay圈好友紛紛發(fā)文悼念

新游戲大妹子
2026-03-30 11:44:54
100年前,帶回1億美金,家里有160棟別墅,從剃頭匠逆襲中國首富

100年前,帶回1億美金,家里有160棟別墅,從剃頭匠逆襲中國首富

鶴羽說個事
2026-03-28 22:36:17
萬科被影子萬科吞噬

萬科被影子萬科吞噬

地產(chǎn)微資訊
2026-03-29 11:40:23
命中率10%!場均僅6+6,還好火箭沒給1.22億,他成不了倫納德

命中率10%!場均僅6+6,還好火箭沒給1.22億,他成不了倫納德

巴叔GO聊體育
2026-03-30 16:23:30
收銀員不識貨!網(wǎng)友白菜價撿漏64GB內(nèi)存惹人羨慕

收銀員不識貨!網(wǎng)友白菜價撿漏64GB內(nèi)存惹人羨慕

游民星空
2026-03-29 19:05:19
1951年,戴笠的兒子戴善武被執(zhí)行死刑,被槍斃的時候才36歲

1951年,戴笠的兒子戴善武被執(zhí)行死刑,被槍斃的時候才36歲

百年歷史老號
2026-03-28 20:32:38
惠州中洲南麓院工地事故致1死,涉事企業(yè)及監(jiān)管部門被追責(zé)

惠州中洲南麓院工地事故致1死,涉事企業(yè)及監(jiān)管部門被追責(zé)

南方都市報
2026-03-30 09:54:57
末代港督彭定康夫婦,帶3個漂亮女兒回英國,29年過去今過得咋樣

末代港督彭定康夫婦,帶3個漂亮女兒回英國,29年過去今過得咋樣

攬星河的筆記
2026-03-26 00:26:09
武契奇吐槽中國導(dǎo)彈太貴,150萬歐元一枚,能把北約嚇傻眼

武契奇吐槽中國導(dǎo)彈太貴,150萬歐元一枚,能把北約嚇傻眼

阿器談史
2026-03-30 16:03:07
《跑男》:徐藝洋比白鹿高半個頭,周潔瓊背后瞄白鹿的眼神不友好

《跑男》:徐藝洋比白鹿高半個頭,周潔瓊背后瞄白鹿的眼神不友好

椰黃娛樂
2026-03-30 13:45:00
萬科多名高管被帶走,大清算開始了?

萬科多名高管被帶走,大清算開始了?

新浪財(cái)經(jīng)
2026-03-30 01:51:44
2026-03-30 17:36:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4616文章數(shù) 37441關(guān)注度
往期回顧 全部

科技要聞

DeepSeek性能異常問題已解決,服務(wù)恢復(fù)

頭條要聞

單套最低5400萬 北京豪宅暴雷幾十戶業(yè)主辦不了房產(chǎn)證

頭條要聞

單套最低5400萬 北京豪宅暴雷幾十戶業(yè)主辦不了房產(chǎn)證

體育要聞

想進(jìn)世界杯,意大利還要過他這一關(guān)

娛樂要聞

單依純凌晨發(fā)長文道歉!李榮浩再回應(yīng)

財(cái)經(jīng)要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態(tài)度原創(chuàng)

數(shù)碼
親子
教育
手機(jī)
游戲

數(shù)碼要聞

小米米家吸頂燈Pro超薄版上架:可選方/圓款,849元起

親子要聞

別再給孩子吃這3種“假早餐”,越吃越?jīng)]精神

教育要聞

義務(wù)教育搖號“可以操作”?教育局辟謠:典型騙局,請別入坑!

手機(jī)要聞

三星舊機(jī)更新現(xiàn)隔空投送開關(guān),卻無法使用?

白天撿垃圾、晚上守家的多人肉鴿!《佩布爾騎士》發(fā)售信息公布!

無障礙瀏覽 進(jìn)入關(guān)懷版