337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

上交大 SciMaster 團隊新作:一個「AI 物理博士」的誕生

0
分享至


五個真實物理任務實測,PhysMaster 可推導、寫碼、數值驗證。

作者丨鄭佳美

編輯丨岑峰

當大模型的能力從能回答問題走向能完成任務,AI for Science 也正在經歷一次更深層的轉向。

過去行業更關注模型在標準題目、知識問答和文獻總結上的表現,但這些能力本質上仍屬于信息處理,它們可以提升效率,卻很難真正改變科研本身的推進方式。

現實科研的核心難點并不在于單點能力是否強,而在于研究過程天然是長鏈條、不確定、強依賴驗證的閉環系統。一個看似簡單的物理問題,往往需要經歷建模選擇、推導路徑、數值實驗設計、代碼實現、調參排錯、對照基準結果、誤差來源分析等一整套流程,任何一步出錯都可能導致結論失效。

也正因為如此,科研效率的瓶頸長期不在想法是否聰明,而在能否把想法變成可信結果,大量時間消耗在重復工程與試錯迭代中。

在這樣的行業背景下,上海交通大學 SciMaster 團隊聯合深勢科技、中科院理論物理所在研究論文《PHYSMASTER: Building an Autonomous AI Physicist for Theoretical and Computational Physics Research》中給出了一個更激進的答案,與其把 AI 當作分散的輔助工具,不如直接構建一個能夠組織、規劃并執行科研閉環的自主系統。

研究團隊用五個真實的物理科研任務驗證其能力,從加速成熟工作流,到自動完成復雜數值研究,再到嘗試自主探索開放問題,展示了 AI 邁向可持續推進科研的可能路徑。

這項研究真正值得關注的地方,不只是模型算得更快或寫得更像人,而是它讓我們看到一種潛在的新科研范式,AI 不再只是科研流程中的局部工具,而可能成為能夠承擔完整研究鏈條的研究主體之一。


論文地址:https://arxiv.org/pdf/2512.19799

01
五項任務跑通科研閉環

這項工作并不是在一個統一的數據集上跑模型分數,而是通過五個真實的物理科研任務來驗證系統能力,并將這些任務按能力層級分為三檔:加速、自動化、自主發現。換句話說,這項工作希望證明的是,這個系統并非只停留在會聊天的層面,而是能夠像物理博士一樣完成一個完整的研究閉環。

首先在加速類任務中,研究團隊展示了兩個代表性成果:第一個成果是從格點 QCD 數據中提取 Collins–Soper kernel。研究人員完成了一條非常標準但極其繁瑣的粒子物理計算鏈條,輸入是一批格點 QCD 的原始歐式相關函數數據以及 Wilson loop 數據。


這些通常是科研團隊計算得到的原始數值結果,輸出則是一個關鍵物理量 Collins–Soper kernel,用來描述 TMD(橫動量相關分布)隨尺度變化的規律。

研究人員強調,該系統得到的結果與已有研究人員工作(Tan 等人 2025 的處理)在中心趨勢上是一致的,同時它給出的統計誤差更小,但研究團隊也說明這可能是因為它在某些系統誤差的處理上更樂觀。


這一成果的重要性并不在于得到某一個數,而在于它能把整條工作流自動跑完,包括從噪聲很大的格點數據中完成擬合、自動選擇合理的擬合區間(這一步在人工分析中很容易帶入主觀性)、進行重整化來消除發散項、處理遠距離區間信號爆噪的問題(用符合物理預期的形式補齊尾部)、做傅里葉變換得到動量空間對象,并最終從不同動量輸入中提取出 kernel,因此它相當于證明AI 不只是會說理論,而是真的能執行嚴謹的物理數據分析流程。


第二個加速類任務是從零寫程序計算鋰原子的第一激發能,并且不允許依賴軟件工具。在這一任務中,系統從頭構建了一個變分求解器,最終算出了鋰原子的基態能量、第一激發態能量,并用兩者差值得到第一激發能,且結果與實驗值非常接近,誤差小到幾乎可以認為足夠支撐科研驗證。

這個實驗的關鍵不在于鋰原子本身有多難,而在于它證明了系統在嚴格限制條件下仍具備獨立完成高強度計算物理工程的能力,研究團隊明確規定它不能調用任何成熟量化化學軟件(如 Gaussian 或 PySCF),不能依賴外部檢索(等于不能查答案),只能使用 Julia 標準庫,并必須自己推導所需的積分形式、自己完成數值積分實現、自己進行參數優化。

真正困難的部分來自工程細節:三電子體系的交換項很容易寫錯,數值積分同時要處理核附近的發散行為和遠處的拖尾行為,而基函數如何選擇、如何保持正交、如何調整參數,也都要求較強的物理直覺與計算經驗。研究人員的結論是,這類工作研究生往往需要幾天甚至更長時間才能完成,但系統能在很短時間內完成,并且結果還能對得上實驗。

隨后研究團隊進入自動化類任務,第三個成果是用量子蒙特卡洛(QMC)計算 Union Jack 格子 Bose–Hubbard 模型的相變臨界點,它得到一個非常精確的量子相變臨界點(從超流到莫特絕緣體的轉變點),誤差很小,而且結論符合物理直覺:Union Jack 格子由于連接更豐富、更容易形成超流,因此臨界點相較普通方格子顯著降低。

這個實驗之所以比前兩個更強,是因為它不是簡單照著公式寫代碼就結束,而更像一個完整的科研項目級流程,它必須自行實現 QMC 的核心算法(SSE 與 directed-loop 更新),處理格子拓撲帶來的細節差異(例如 winding number 的計算不再與普通格子完全一樣),自動調參使系統精確落在莫特區的關鍵位置(并非隨便選一個化學勢即可),并需要在不同系統尺寸上重復計算,再通過有限尺度分析把有限系統結果外推到無限系統,從而得到可靠的臨界點。

研究人員還強調,這個任務是在沒有外部知識庫檢索的情況下完成的,因此等于證明它能夠從物理定義出發獨立跑完一個高精度數值研究任務。


第四個成果仍屬于自動化類,但形式不同,這項工作研究的是潮汐瓦解事件(TDE)中 nozzle shock 的耗散是否會被廣義相對論效應顯著增強,這個案例并不是要算一個固定標準答案,而是要驗證一個假設是否成立。

背景是傳統理論往往認為碎片流在近地點附近發生 nozzle shock 會耗散大量能量,從而快速形成吸積盤,但后來更高分辨率的模擬發現過去可能高估了耗散強度,甚至高估了兩到三個數量級。

在這個背景下,系統要測試的機制是,如果考慮恒星并非一個點,則會產生能量展寬,在 Kerr 黑洞時空中不同能量碎片的軌道進動程度不同,這會導致碎片再次匯合時發生非零夾角碰撞,從而帶來額外耗散并可能增強 nozzle shock 的總耗散。

這個實驗體現的能力是自動化科研循環:給系統一個研究人員提出的方向或假設,它能夠自己建模、自己開展數值實驗、自己判斷這一機制是否可能解釋問題,這比單純做題更接近真實科研。


最后第五個成果是自主發現類任務,研究對象是粲介子半輕衰變中的哈密頓量構造與振幅預測,研究團隊將其定義為真正的跨越,意味著系統從協作科學家邁向自主科學家,即不再是人類一步步告訴它怎么做,而是面對仍然開放、復雜的問題時能夠自主探索,并提出研究人員認為具有創新性的方法。研究團隊認為這一部分體現的是最高等級能力:不僅能夠執行任務,還能產出新的研究路線。


02
讓物理研究流程化與可復用

這項工作將 PHYSMASTER 的整體流程拆分為三個階段:前處理、執行、沉淀復用,因此它更像一個具備組織能力的科研團隊,而不是單一模型。

前處理階段,研究人員指出真實科研問題常常信息過載、缺乏層次且存在歧義,如果直接開始計算,很容易跑偏,同時浪費計算資源和上下文長度,因此系統會先進行問題澄清與拆解,明確問題屬于哪個物理方向,厘清輸入內容與輸出形式,判斷任務類型屬于工程計算、假設檢驗、開放探索或現象學分析中的哪一種,梳理必須遵守的物理約束(如守恒律、對稱性、尺度等),補足所需背景知識,并最終拆成一系列可執行子任務,這一步相當于研究人員在正式研究前制定工作計劃。

隨后在前處理的第二部分,研究團隊會建立一個只服務當前任務的專用知識庫,該知識庫并非用于百科式存儲,而是用于補齊關鍵概念與關鍵做法,引入必要的數值基準或標準方法,避免后續推導與實現憑空編造。

其構建依賴兩類協作角色,一類負責擴展檢索范圍以盡量不遺漏,另一類負責通過強推理篩選高相關內容,并從中提取定性知識(如機制、物理圖像和效應競爭關系)以及定量知識(如關鍵數值結果、參數與校準信息),同時強調證據鏈,使系統每一步結論盡量可追溯來源。


進入執行階段后,系統開展理論推導、代碼實現與試錯迭代,研究人員認為物理研究屬于超長任務,通常需要多輪草稿、檢查和修改,因此系統采用多軌跡探索策略,同時并行嘗試多條路線,每條路線產出階段性結果,最終選擇最可靠、最完整的一條作為最終方案,這更像科研團隊并行推進多個方案,而不是單一路線死磕。

執行階段還包含明確分工:Supervisor 更像導師或項目負責人,負責決定下一步做什么、管理進度以避免遺忘前面結論、嚴格檢查輸出是否可靠,并提出批評、指出錯誤和要求修正。

Theoretician 更像具體執行的研究員,負責理論推導與建模,把模型轉化為可運行程序,并通過數值實驗得到結果,而研究團隊強調系統可靠性的關鍵在于 Supervisor 提供的批判式反饋,否則系統可能越改越錯。


最后在沉淀復用階段,研究人員提出長期記憶系統 LANDAU,目的不是完成一次任務就結束,而是讓系統未來遇到類似問題更快更穩,它會沉淀任務中檢索到的可靠文獻知識、已經驗證有效的方法流程,以及人工整理的高置信物理常識以避免基礎錯誤,并且每次任務結束后,本次構建的小型知識庫會并入長期庫,使系統不斷積累經驗,逐漸更像一個經驗豐富的物理學家。


03
從助手到研究者的轉變

整體來看,這項工作可以從四個層面理解其意義。第一,它證明AI 可以完成端到端的物理科研流程,而不僅僅停留在做競賽題、回答事實問題或進行文獻檢索與總結,因為這些傳統評估方式并不能構成真正的研究閉環。

而真實物理研究更需要抽象建模、嚴謹推導、可執行代碼實現以及數值驗證能力,這些恰恰是過去許多 AI 系統明顯欠缺的地方,因此 PHYSMASTER 的價值就在于把這些關鍵能力整合到同一個系統里。

第二,它將物理研究中最耗費人力的重復工程勞動顯著壓縮,例如寫求解器、調參、調試、反復跑計算等工作往往占據大量時間,而加速類案例表明 AI 有可能把原本需要資深博士生花費一到三個月完成的重工程環節壓縮到幾個小時,從而直接改變科研推進的節奏。

第三,自動化類案例進一步說明科研循環本身也可以被壓縮到一天左右,即在研究人員給出一個假設或思路后,系統能夠自動完成探索循環,包括做實驗、驗證假設并持續迭代,把原本不可預測、可能拖延數月的過程收斂到一天級別,這意味著未來的科研分工可能逐漸變成由人類負責提出方向,由 AI 負責將方向快速轉化為可驗證的結論。

第四,自主發現類案例體現出AI 有機會從科研助手轉向研究者,因為自主發現意味著系統不再只是執行命令,而是能夠在面對開放性問題時自己探索路徑并推進研究,這正是其所強調的從協作科學家邁向自主科學家的關鍵轉變。

04
點亮 PhysMaster 的人

第一作者苗庭嘉本科就讀上海交通大學致遠學院,現為上海交通大學人工智能學院2026級博士研究生,研究方向聚焦于 AI Agents 與 AI for Science,導師為陳思衡副教授。

2023 至 2024年,他曾在上海交通大學李政道研究所擔任科研助理,從事凝聚態物理理論研究;此后,在字節跳動Seed、北京大學計算機學院進行過AI領域研究工作。

自 2025 年起,苗庭嘉開始與深勢科技合作,深度參與 SciMaster 科研智能體生態的構建與完善。


本論文的通訊作者為陳思衡。他是上海交通大學人工智能學院長聘教軌副教授、博士生導師。

陳思衡于 2016 年獲得美國卡內基梅隆大學電氣與計算機工程博士學位,并入選國家級人才計劃青年項目。他的研究方向涵蓋圖機器學習、群體智能、多智能體協同感知以及大模型智能體,并在圖信號處理與圖結構數據采樣理論方面做出開拓性貢獻,曾獲得 IEEE 信號處理協會最佳青年作者論文獎。

在群體智能領域,他提出群智交互感知的語用社會學習思想,緩解了多智能體協同感知中通信效率與性能之間的矛盾。近年來,他致力于大模型驅動的智能體技術,開發了科研智能體 SciMaster 和 ML-Master,并在 AI4AI 方向取得了顯著進展。


參考鏈接:https://siheng-chen.github.io/

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
山東遭噩夢!克里斯骨裂缺席3-4周,或簽備用外援,未來賽程艱難

山東遭噩夢!克里斯骨裂缺席3-4周,或簽備用外援,未來賽程艱難

籃球資訊達人
2026-03-22 13:36:09
新冠后遺癥對人體的最大影響,很多人深受其害,有些人還不自知

新冠后遺癥對人體的最大影響,很多人深受其害,有些人還不自知

呼吸科大夫胡洋
2026-02-22 11:39:12
對話|海灣戰事三周(下):戰爭使伊朗政權更軍事化,國家性質將發生改變

對話|海灣戰事三周(下):戰爭使伊朗政權更軍事化,國家性質將發生改變

澎湃新聞
2026-03-22 07:54:29
重要賽事!3月22日14:00!中央5套CCTV5、CCTV5+直播節目表

重要賽事!3月22日14:00!中央5套CCTV5、CCTV5+直播節目表

皮皮觀天下
2026-03-22 12:19:55
湖南臺這回要笑醒!熱巴《白日提燈》還沒播,風頭都被魏哲鳴搶走

湖南臺這回要笑醒!熱巴《白日提燈》還沒播,風頭都被魏哲鳴搶走

查爾菲的筆記
2026-03-21 23:05:45
中國不記隔夜仇!第八波反制到了,巴直呼受不了,請中方放過

中國不記隔夜仇!第八波反制到了,巴直呼受不了,請中方放過

諦聽骨語本尊
2026-03-21 18:11:27
38萬老車主看完新SU7配置單,沉默了……

38萬老車主看完新SU7配置單,沉默了……

道哥說車
2026-03-20 10:17:01
杭州四季青女老板二姐被女店員撬走老公,兩人當街互撕臉面盡失

杭州四季青女老板二姐被女店員撬走老公,兩人當街互撕臉面盡失

觀世記
2026-03-21 16:28:50
1992年夏天,15歲的我被鄰居大姐姐喊去看碟片,屋里只有我們倆

1992年夏天,15歲的我被鄰居大姐姐喊去看碟片,屋里只有我們倆

千秋文化
2026-03-19 21:15:31
強過 B 費!曼聯挖到隱藏真核,新王集齊C羅、魯尼兩大特質

強過 B 費!曼聯挖到隱藏真核,新王集齊C羅、魯尼兩大特質

瀾歸序
2026-03-22 06:11:22
小區樓上天天晚上都有女的大聲叫。。。

小區樓上天天晚上都有女的大聲叫。。。

微微熱評
2025-12-24 00:26:04
深圳市委書記調整

深圳市委書記調整

新京報
2026-03-22 12:26:09
剛剛,特朗普做出最瘋狂決定,他要孤注一擲!

剛剛,特朗普做出最瘋狂決定,他要孤注一擲!

霹靂炮
2026-03-21 22:28:40
小竹子撐起大產業(向新向優的中國產業)

小竹子撐起大產業(向新向優的中國產業)

人民網
2026-03-22 06:02:57
特朗普:美國已將伊朗從地圖上抹去

特朗普:美國已將伊朗從地圖上抹去

小影的娛樂
2026-03-22 13:05:03
伊朗總統呼吁伊朗攜手并肩度過風暴

伊朗總統呼吁伊朗攜手并肩度過風暴

極目新聞
2026-03-21 23:26:15
歐冠轉會血淚史:那些讓豪門腸子悔青的失敗交易

歐冠轉會血淚史:那些讓豪門腸子悔青的失敗交易

茅塞盾開本尊
2026-03-22 13:18:38
日本女足主帥:澳大利亞唯一讓人惱火的是晚上11點就買不到啤酒了

日本女足主帥:澳大利亞唯一讓人惱火的是晚上11點就買不到啤酒了

懂球帝
2026-03-21 21:14:25
女籃世界杯中國晉級,日本假球FIBA嚴查,加拿大被坑

女籃世界杯中國晉級,日本假球FIBA嚴查,加拿大被坑

趙昉是個熱血青年
2026-03-21 11:22:45
亞朵,擠滿偷偷開房的成年人

亞朵,擠滿偷偷開房的成年人

廣告案例精選
2025-10-03 15:00:51
2026-03-22 14:48:49
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7136文章數 20742關注度
往期回顧 全部

科技要聞

OpenAI開啟“人海戰術” 沖刺8000人規模

頭條要聞

男子花2萬多買"Made in USA"床墊 睡著睡著感覺不對勁

頭條要聞

男子花2萬多買"Made in USA"床墊 睡著睡著感覺不對勁

體育要聞

鄭欽文連續迎戰大滿貫冠軍 “雙教練”團隊正式亮相

娛樂要聞

今晚首播!央視年代劇《冬去春來》來了

財經要聞

睡夢中欠債1.2萬?這只“蝦”殺瘋了

汽車要聞

14.28萬元起 吉利銀河星耀8遠航家開啟預售

態度原創

時尚
藝術
數碼
家居
公開課

伊姐周六熱推:電視劇《隱身的名字》;電視劇《正義女神》......

藝術要聞

第四屆深圳大芬國際油畫雙年展 | 入選油畫選刊(四)

數碼要聞

又一筆記本廠商Ninkear陷入CPU虛標爭議,官方承諾調查

家居要聞

時空交織 空間綺夢

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版