![]()
新智元報道
編輯:好困 桃子
【新智元導讀】太瘋狂了!Meta和METR剛測出的AI進化數(shù)據(jù),與中國團隊兩年前提出的「密度定律」完美重合。硅谷猛然回頭,發(fā)現(xiàn)中國研究者在這條路上已領先兩年!
全球三家最嚴肅的AI研究機構,過去一周集體撞車了!
4月3日,美國研究機構METR悄悄更新了一份技術報告,核心結論壓成一句話。
AI能力每88.6天翻倍一次。
![]()
5天后,4月8日,Meta超級智能實驗室發(fā)布全新模型Muse Spark,公開了一條內部叫做scaling ladder的訓練效率曲線,結論也是一句話。
要追上一年前Llama 4 Maverick的性能,新模型只需要不到十分之一的訓練算力。
![]()
一份測任務時長,一份測訓練算力。兩家機構沒有任何往來,研究方法毫無重合。
但當兩條曲線被換算到同一坐標系里,斜率幾乎完全重合。
到這里,事情已經(jīng)夠離譜了。
更離譜的是,這條曲線,被一個中國團隊兩年前就完整地畫出來過,還登上了Nature子刊。
它叫密度定律。
![]()
![]()
兩年前,有人提前畫過這條線
這個概念最早出現(xiàn)在一篇叫「Densing Law of LLMs」的論文里。
作者是面壁智能和清華大學的聯(lián)合團隊,孫茂松和劉知遠兩位教授領銜,第一作者是博士生肖朝軍。
論文2024年12月掛上arXiv,2025年11月被Nature Machine Intelligence接收。
![]()
論文地址:https://arxiv.org/abs/2412.04315
![]()
論文地址:https://www.nature.com/articles/s42256-025-01137-0
論文的核心判斷只有一句話。
模型智能密度隨時間呈指數(shù)級增強,達到特定智能水平所需的參數(shù)量,每3.5個月下降一半。
放在2024年底,這話聽上去有點過激。
那時全行業(yè)都在崇拜scaling law。OpenAI在堆模型,Anthropic在堆模型,Meta也在堆模型。
所有人都覺得參數(shù)越大智能越強,把GPU燒到極致才是正道。
![]()
但研究團隊不這么看。
他們把當時所有有影響力的開源基礎模型,從Llama-1一路到Gemma-2、MiniCPM-3,總共51個模型都放進了同一把尺子里去量。
五大基準跑完,結果是幾乎完美的指數(shù)關系,R2達到0.934。
考慮到大模型評測很容易被數(shù)據(jù)污染干擾,他們又用一個新構建的污染過濾數(shù)據(jù)集MMLU-CF重測了一次。R2=0.953。
兩次擬合都拿到了接近1的R2。統(tǒng)計學上,這幾乎不可能是巧合。
換句話說就是,這兩年發(fā)布的每一個主流開源模型,不管來自哪個團隊、用什么架構,都落在了同一條「每3.5個月翻倍」的指數(shù)線上。
![]()
到這里,故事還只是「一個中國團隊提出了一個看上去很激進的經(jīng)驗規(guī)律」。
真正讓這件事變成一個「時刻」的,是接下來這小半年發(fā)生的事。
三家機構,三種方法,同一個斜率
把面壁、Meta、METR三方的結論攤開看。
面壁的密度定律衡量的是「同樣的智能水平需要多少參數(shù)」。結論是參數(shù)需求每3.5個月減半。
Meta的scaling ladder衡量的是「同樣的智能水平需要多少訓練算力」。結論是Muse Spark比一年前的Llama 4 Maverick節(jié)省了一個數(shù)量級。
METR的時間跨度報告衡量的是「同樣的模型能搞定多長任務」。結論是任務時長每88.6天翻倍。
三把尺子。三個學術機構。三種沒有任何重合的研究路徑。
但當所有數(shù)字被換算到同一坐標系里看時,它們的曲線斜率幾乎完全重合。
這事最容易被忽略的一點是,密度定律是這三者里最早提出的。比Meta的scaling ladder早了近兩年,比METR的完整建模也早了一年多。
而當Meta在四月初的發(fā)布博客里畫出那條scaling ladder時,他們大概自己都沒意識到。這張圖的形狀,和2024年北京一個學術會議PPT上的曲線,幾乎是同一條線。
什么樣的觀察,才配得上「定律」兩個字
在科學界,有一套不成文的標準,來判斷一條經(jīng)驗觀察是否有資格被叫做「定律」。
不是看數(shù)據(jù)有多漂亮,是看它能不能在多個獨立的測量系統(tǒng)下同時成立。
摩爾定律之所以是定律,因為半導體行業(yè)從光刻精度、晶體管密度、單位算力成本三個完全不同的維度,幾十年來一遍遍驗證過它。
![]()
密度定律走的是同一條路。
它最初只是來自單一團隊的一條擬合曲線。到Nature子刊接收時,它已經(jīng)能在污染過濾后的數(shù)據(jù)集上重現(xiàn)。到這個月,它在Meta的訓練數(shù)據(jù)和METR的任務評測里又被兩次獨立驗證。
放在更大的坐標系里看,這一刻像極了1880年代電力剛進入紐約的時候。
那時也是幾個不同的發(fā)明家、不同的工程師、不同的城市,各自在搞各自的電網(wǎng)。直到有人把所有項目的發(fā)展曲線畫在一張紙上,人們才反應過來。這不是幾個零散的工程進步,這是一個新時代正在悄悄鋪開。
只是這一次,從論文發(fā)表到被全球同行驗證,只用了不到一年。
三個推論,每一個都在改寫行業(yè)假設
如果密度定律站得住腳,它會同時改寫很多東西。
第一,推理成本會比所有人預期的都崩得更快。
密度定律的一個推論是,達到同樣性能的LLM,推理成本大概每2.6個月減半。
如今,這個降幅已經(jīng)被現(xiàn)實超過了。
Epoch AI最新追蹤數(shù)據(jù)顯示,達到Claude 3.5 Sonnet性能水平的LLM,過去一年token價格降了400倍。同檔位性能的最快降幅觸到900倍/年。
2022年底GPT-3.5開價20美元/百萬token那種水平,今天Mistral Nemo只要0.02美元,便宜了1000倍,模型還更強。
回頭來看,論文里的預測還是保守了。
第二,端側智能的爆發(fā)點,比所有人預想的都近。
把密度定律和摩爾定律相乘,會得到一個更刺激的數(shù)字。
按目前估算,在同價格芯片上能跑的最大有效模型規(guī)模,大約每88天翻一倍。
這個數(shù)字和METR算出的88.6天幾乎一致。兩家完全不同的推算路徑,在小數(shù)點后撞了車。
未來三五年,在一臺普通筆記本甚至一部手機上跑當下頂級GPT級別模型這件事,可能不再是科幻。
第三,大模型行業(yè)的最優(yōu)策略,正在悄悄反轉。
過去三年,行業(yè)對scaling law的理解一直停留在「堆參數(shù)堆數(shù)據(jù)」
但密度定律給出了一個反直覺的判斷。在密度持續(xù)指數(shù)增長的前提下,任何狀態(tài)的最強模型都只有幾個月的最優(yōu)窗口期。
砸全部資源去訓一個更大的模型,然后等三個月被一個體積一半的新模型超越,在經(jīng)濟賬上是不劃算的。
真正可持續(xù)的路,是把資源砸在密度本身的提升上。更好的架構,更高質量的數(shù)據(jù),更聰明的訓練算法。
面壁,一直在沿著自己畫的尺子走
值得說一句的是,密度定律不是一篇發(fā)完就結束的論文。
提出這套理論的面壁智能,過去兩年一直在用自家的「小鋼炮」MiniCPM系列模型驗證它。
MiniCPM-1-2.4B在2024年2月發(fā)布的時候,跑分能打平或超過2023年9月的Mistral-7B。也就是說,四個月時間,35%的參數(shù),達到了同等性能。
這個數(shù)字被直接寫進了Nature子刊那篇論文里,作為密度定律的第一個實證案例。
從那之后,小鋼炮系列一路開源,覆蓋10B以下參數(shù)的文本、多模態(tài)、語音、全模態(tài)四大方向。這個開源完整度,在國內除了阿里之外,只有面壁一家做到。
到目前為止,小鋼炮系列在全球的開源下載量已經(jīng)突破2400萬次。
它不是行業(yè)里最大的模型。但它是行業(yè)里第一個把「密度優(yōu)先」當作公司方法論來執(zhí)行的團隊。
而當Meta和METR在2026年4月這一周用各自的方式驗證密度定律時,這家2024年就開始按這套方法論訓練模型的中國公司,其實已經(jīng)領先了兩年的工程經(jīng)驗。
這一次,中國研究者站在了曲線的起點
一個中國研究團隊兩年前提出的理論框架,正在被Meta、METR這些海外最嚴肅的機構,用他們各自的方式,一次次重新發(fā)現(xiàn)。
這件事的份量,可能需要一點時間才能完全理解。
它不是一個「我們也行」的故事。它是一個「我們更早一點看見」的故事。
科學史上這樣的瞬間不算多。一個在2024年被懷疑的判斷,在2026年變成了多個獨立證據(jù)指向的同一條曲線。
這種跨地域、跨方法、跨機構的「不約而同」,在物理學里發(fā)生過幾次,每一次都標志著一個舊范式的終結和一個新范式的開始。
中國AI研究者這一次站在了那個起點上。
而那條曲線,還在以每88天翻一倍的速度往上走。
參考資料:
面壁智能首創(chuàng)的「密度定律」,獲 Meta 等海外頂級機構認可
https://arxiv.org/abs/2412.04315
https://www.nature.com/articles/s42256-025-01137-0
https://metr.org/blog/2026-1-29-time-horizon-1-1/
https://ai.meta.com/blog/introducing-muse-spark-msl/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.