![]()
「AI的發(fā)展,已經(jīng)進(jìn)入決賽圈。決賽圈比拼的,是AI自進(jìn)化的加速度」 —— 項目負(fù)責(zé)人
DeepMind 德米斯·哈薩比斯曾用一句話定義他畢生的使命:「先解決智能問題,然后用它來解決其他一切問題。
這句話背后藏著一個極其深刻的邏輯——智能,是打開人類一切重大命題的萬能鑰匙。物理、化學(xué)、生物……所有領(lǐng)域的突破,本質(zhì)上都在等待同一件事的發(fā)生:AI 真正掌握自我進(jìn)化的能力。一旦這道門被打開,它所釋放的能量,將同時涌入人類知識版圖的每一個角落。
AI 的每一次進(jìn)步,背后都是人類研究員在架構(gòu)設(shè)計、數(shù)據(jù)清洗、算法調(diào)優(yōu)上投入的海量人力——這是一條以人力為燃料的線性賽道:效率低下,迭代緩慢,而我們所期望的是那條指數(shù)級躍升的曲線。
AI 在加速,但駕駛它的,還是人類的雙手。這,正是決賽圈真正的瓶頸所在。直到今天,這個瓶頸,第一次被正面擊穿。
![]()
圖:AI自主實(shí)現(xiàn)架構(gòu)、數(shù)據(jù)、算法三大核心領(lǐng)域的科學(xué)發(fā)現(xiàn)級突破,其光芒向外輻射,驅(qū)動數(shù)學(xué)、生物醫(yī)學(xué)、物理學(xué)等整片知識星系,邁入全新軌道。
來自創(chuàng)智學(xué)院、上海交通大學(xué)劉鵬飛研究團(tuán)隊(GAIR)發(fā)布的「超智能-進(jìn)化」框架:ASI-Evolve,已經(jīng)可以在不依賴人類研究員的前提下,獨(dú)立完成「發(fā)現(xiàn)問題 → 設(shè)計方案 → 迭代驗證 → 提煉規(guī)律」的完整科研閉環(huán)。
更重要的是,這一次并非某個局部領(lǐng)域的小試牛刀——而是在 AI 研發(fā)最硬核的三大核心戰(zhàn)場上,同時交出了科學(xué)發(fā)現(xiàn)級別的答卷:
- 神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計——AI 獨(dú)立發(fā)現(xiàn)超越人類專家的全新架構(gòu)。
- 預(yù)訓(xùn)練數(shù)據(jù)篩選——AI 自主優(yōu)化數(shù)據(jù)策略,MMLU 評測提升超 18 個百分點(diǎn)。
- ??強(qiáng)化學(xué)習(xí)算法設(shè)計——AI 設(shè)計出全新訓(xùn)練算法,數(shù)學(xué)競賽題上超越 GRPO 基線達(dá) 12.5 分。
三場硬仗,三場勝利。人類研究員,在 AI 自我進(jìn)化的加速度競賽中,首次全線落敗。如果說過去大家更多看到的是 AI 幫人類做研究,那么 ASI-Evolve 展示的是另一件事:AI 開始加速 AI。
不僅如此,團(tuán)隊還進(jìn)一步證明,AI 優(yōu)化出的設(shè)計可以直接遷移到真實(shí)藥物發(fā)現(xiàn)任務(wù),形成從 AI 研究到科學(xué)應(yīng)用的完整鏈條。
開源鏈接:https://github.com/GAIR-NLP/ASI-Evolve
技術(shù)報告:https://github.com/GAIR-NLP/ASI-Evolve/blob/main/assets/paper.pdf
為什么這件事難?
AI 研究不是「給一個答案」
真實(shí)世界里的 AI 研究,本質(zhì)上要同時跨過三重門檻:
- 執(zhí)行成本高:一次有效驗證往往要消耗數(shù)小時甚至更久的計算資源,還伴隨真實(shí)工程接入與運(yùn)行成本。
- 搜索空間大:目標(biāo)開放、邊界不預(yù)設(shè),系統(tǒng)必須在大規(guī)模候選方向中自主找到有價值的探索路徑。
- 反饋維度多:結(jié)果不是簡單的「對 / 錯」,而是多維、間接、甚至彼此沖突的信號,必須經(jīng)過分析才能轉(zhuǎn)化為下一步行動。
真正困難的,不是生成一個點(diǎn)子,而是在漫長、昂貴、弱反饋的實(shí)驗循環(huán)里,持續(xù)進(jìn)化自己的研究能力。ASI-Evolve 正是為這個問題而設(shè)計的。
三大核心成果:
AI 首次打通 AI 研發(fā)閉環(huán)
ASI-Evolve 的核心結(jié)果,不是幾個彼此并列的案例,而是一條完整主線:AI 首次在統(tǒng)一框架下,打通了 AI 研發(fā)的三大核心支柱。
架構(gòu):AI 開始自主做模型架構(gòu)研究
在神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計任務(wù)中,ASI-Evolve 以 DeltaNet 為起點(diǎn),圍繞高效線性注意力展開長周期自主探索。系統(tǒng)累計進(jìn)行了1773 輪演化實(shí)驗,在驗證階段發(fā)現(xiàn)了105 個超過 DeltaNet 的新架構(gòu),最終最優(yōu)模型相較 DeltaNet 獲得大幅提升,接近當(dāng)前人類設(shè)計 SOTA 增益的3 倍
![]()
更重要的是,這不是只在單一開發(fā)集上「刷出來」的結(jié)果。在擴(kuò)展到1.3B 參數(shù)、100B token的大規(guī)模驗證后:
- 開發(fā)集最高達(dá)到57.28%平均準(zhǔn)確率,超過 DeltaNet 的 55.76%。
- 6 個 held-out OOD 任務(wù)上也達(dá)到45.40%,超過 DeltaNet 的 44.74%。
這說明 AI 發(fā)現(xiàn)的不是只對榜單有效的技巧,而是真正可以泛化的結(jié)構(gòu)性改進(jìn)。
數(shù)據(jù):AI 開始自主塑造下一代模型要吃什么數(shù)據(jù)
![]()
![]()
AI自主處理訓(xùn)練數(shù)據(jù),大幅提升模型表現(xiàn)
![]()
數(shù)據(jù)策略不再只是人工規(guī)則工程,也開始成為AI 可以持續(xù)研究、反復(fù)迭代、主動優(yōu)化的對象。
算法:AI 不只是調(diào)超參,而是在發(fā)明新的 RL 訓(xùn)練算法
在強(qiáng)化學(xué)習(xí)算法設(shè)計任務(wù)中,ASI-Evolve 以 GRPO 為強(qiáng)基線,直接改寫 advantage 分配與梯度更新機(jī)制。系統(tǒng)在 300 輪演化中訓(xùn)練并評估大量候選算法,其中 10 個在探索階段超過 GRPO,最終有 3 個算法進(jìn)入 14B 規(guī)模驗證。最終算法在數(shù)學(xué)與代碼等多類任務(wù)上相對 GRPO 取得一致提升:AMC32 上最高 +12.5 分、AIME24 上 +11.67 分、OlympiadBench 上 +5.04 分,并在數(shù)學(xué)、抽象推理、STEM、金融與代碼等更廣泛評測上保持優(yōu)勢。
![]()
AI自主設(shè)計算法
最有代表性的兩個創(chuàng)新方向:
- 一個方向通過成對比較的 advantage 估計和不對稱 clipping,顯式建模「好的回答究竟比其他回答好多少」。
- 另一個方向引入全局更新預(yù)算,為每個 token 動態(tài)分配可信更新半徑,從數(shù)學(xué)上約束 noisy training 中的策略更新穩(wěn)定性。
它做的不是參數(shù)搜索,而是在真正進(jìn)入算法層面的數(shù)學(xué)創(chuàng)新。這三項結(jié)果合在一起,說明AI 已經(jīng)開始在架構(gòu)、數(shù)據(jù)、算法這三大核心研發(fā)環(huán)節(jié)中形成閉環(huán),直接參與 AI 自身的進(jìn)化。
ASI-Evolve:
完整的 Learn-Design-Experiment-Analyze 閉環(huán)
![]()
![]()
為了解決這些復(fù)雜的科研任務(wù),框架設(shè)計了「學(xué)習(xí)-設(shè)計-實(shí)驗-分析」閉環(huán),由五個相互配合的角色構(gòu)成:
- 研究員:提出新假設(shè)、生成候選方案。
- 工程師:把方案真正放進(jìn)實(shí)驗環(huán)境執(zhí)行,拿到真實(shí)結(jié)果。
- 分析者:閱讀復(fù)雜實(shí)驗輸出,把雜亂日志、指標(biāo)和現(xiàn)象提煉成可復(fù)用的洞察。
- 數(shù)據(jù)庫:積累自身研究經(jīng)驗,形成對于具體任務(wù)的專業(yè)見解。
- 認(rèn)知池:作為人類知識的圖書館,提供高質(zhì)量的領(lǐng)域信息。
相比于以往的自動化科研工作流,改進(jìn)在于兩方面:一是讓 AI 在實(shí)驗中充分吸收人類科研積累,站在巨人的肩膀上,把盲目、冗余的探索壓到最低;二是真正讀懂并剖析實(shí)驗輸出,讓每一次實(shí)驗都被充分利用。
![]()
橫向?qū)Ρ龋拭黠@提升
論文中的分析實(shí)驗也展示了這一設(shè)計的必要性:在數(shù)學(xué)領(lǐng)域的 circle packing 任務(wù)上,ASI-Evolve 最快只用17 步就達(dá)到 SOTA 級結(jié)果,明顯快于 OpenEvolve 和 GEPA;而當(dāng)去除分析者,系統(tǒng)進(jìn)化很快進(jìn)入平臺期;離開了認(rèn)知池,啟動明顯變慢。這更說明了自主科研不是以量取勝的盲目搜索,而應(yīng)該是「知識先驗 + 實(shí)驗反思」雙重驅(qū)動下的高效演化。
![]()
消融實(shí)驗,分析和認(rèn)知缺一不可
從 AI 研究到真實(shí)應(yīng)用:藥物發(fā)現(xiàn)的遷移驗證
然而,AI 優(yōu)化出的 AI,在真實(shí)應(yīng)用場景下真的有用嗎?
為回答這個問題,GAIR 團(tuán)隊把 ASI-Evolve 演化出的架構(gòu)遷移到了藥物-靶點(diǎn)相互作用預(yù)測任務(wù)中,用 AI 自動發(fā)現(xiàn)的新架構(gòu)去解決生物醫(yī)藥問題。
![]()
![]()
ASI-Evolve自主優(yōu)化模型架構(gòu),實(shí)現(xiàn)跨領(lǐng)域應(yīng)用提升
相較 DrugBAN 基線,ASI-Evolve 發(fā)現(xiàn)的架構(gòu)在多個 benchmark 上都實(shí)現(xiàn)了穩(wěn)定提升:
- BindingDB 開發(fā)集:AUROC 提升 +1.91,F(xiàn)1 提升 +2.95。
- 隨機(jī)測試集:AUROC 提升 +1.05。
更重要的是,在更困難、也更接近真實(shí)應(yīng)用價值的cold-start場景里,面對從未見過的新藥或新蛋白時,提升更大:
- unseen drug 場景:AUROC 最高提升 +6.94。
- unseen protein 場景:AUROC 提升 +3.56。
- 雙重泛化(藥物 + 蛋白均未見):AUROC 提升 +4.36。
這說明 AI 自主研究得到的并不是「只對 AI benchmark 有效」的技巧,而是具有跨領(lǐng)域遷移價值的真實(shí)設(shè)計能力。AI 優(yōu)化的 AI,開始在真實(shí)科學(xué)應(yīng)用場景里顯示出實(shí)用價值。
對開源社區(qū)與 AI 研究范式的意義
ASI-Evolve 真正值得關(guān)注的,不只是拿到了幾個更高的分?jǐn)?shù),而是第一次在統(tǒng)一系統(tǒng)中,把「AI Accelerates AI」這件事系統(tǒng)性地展開并驗證了出來。
GAIR 團(tuán)隊展示的是:AI 已經(jīng)可以在架構(gòu)、數(shù)據(jù)、算法這些 AI 發(fā)展的基礎(chǔ)環(huán)節(jié)上,通過系統(tǒng)的自我進(jìn)化閉環(huán)持續(xù)推進(jìn)研究。這意味著,當(dāng) AI 智能快速發(fā)展時,這種增長不只體現(xiàn)在解題、寫代碼或執(zhí)行任務(wù)上,也開始能夠反哺 AI 自身科研,加速下一輪發(fā)明,形成 AI research level 的迭代進(jìn)化,并輻射賦能 Math、Drug 等其他學(xué)科。
未來展望
隨著 AI 持續(xù)變強(qiáng),這種自我科研加速不會停留在架構(gòu)、數(shù)據(jù)、算法三層,而可能進(jìn)一步擴(kuò)展到框架優(yōu)化、推理加速等更完整的 AI 工作流。
在更宏觀的層面上,隨著進(jìn)化系統(tǒng)承擔(dān)越來越多實(shí)現(xiàn)、試驗和迭代工作,人類可以把更多精力從「執(zhí)行方案」轉(zhuǎn)向「定義問題」,把最重要的問題設(shè)定、研究方向判斷和價值選擇留給人,把更大規(guī)模的假設(shè)空間探索交給 AI。
ASI-Evolve 展示的,是 AI 自我科研加速從設(shè)想走向系統(tǒng)性驗證的一步。當(dāng) AI 開始真正參與 AI 的發(fā)明過程,我們看到的或許不只是效率提升,而是AI 研發(fā)范式本身開始發(fā)生變化
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.