![]()
近日,飛捷科思智能科技(上海)有限公司宣布完成近億元Pre-A1輪融資。本輪融資由經緯創投與東方富海聯合領投,沐曦股份、馳星創投等機構參與投資。
飛捷科思定位為Physical AI(物理AI)核心基礎設施供應商,專注于自主研發面向具身智能的新一代可微分、多物理統一求解物理仿真引擎。該引擎適配主流及國產GPU,支持大規模并行仿真,旨在通過生成高質量合成數據,解決機器人訓練數據匱乏的行業痛點。
盡管現有頂尖多模態大語言模型(MLLMs)在語義理解與跨模態推理上已展現出驚人能力,但它們在物理感知層面仍面臨巨大的“認知鴻溝”。這種物理認知的缺失,導致現有模型在生成任務中頻頻產生違反因果律的“物理幻覺”,在推理任務中則傾向于依賴淺層的語義標簽而非內在的物理屬性與參數,限制了其在真實物理世界中的可用性、可靠性與泛化能力。其背后的根本原因在于,關鍵的物理屬性在視覺上具有天然的模糊性,且在現有的網絡規模數據中缺乏顯式的表征與對齊,導致模型難以像人類一樣通過跨模態線索消除歧義,從而無法建立起對物理世界本質的正確認識。
為突破這一物理認知瓶頸,飛捷科思智能科技(Fysics AI)推出了OmniFysics —— 一款面向真實世界的全模態物理AI基礎模型。OmniFysics統一了圖像、音頻、視頻和文本的跨模態理解,并集成了高保真的語音與圖像生成能力,不僅在標準多模態基準上表現優異,更通過注入顯式的物理知識,從根本上重塑了AI模型對物理規律的感知與預測,有效彌合了隱式神經表示與顯式物理知識之間的鴻溝,為構建能夠真正理解并與物理世界互動的具身智能體奠定了堅實基礎。
為了解決高質量物理對齊數據的稀缺問題,團隊構建了雙中樞數據生態系統:FysicsAny中樞針對靜態屬性,通過“感知-檢索-驗證”的五階段專家協作機制,結合物理定律約束與分層知識檢索,構建了包含 943K 驗證物理標簽和 4.7M 對指令-圖像的首個大規模物理屬性數據資產;FysicsOmniCap中樞則針對動態過程,利用視聽一致性過濾與“大腦-工具”協作機制,提煉出872K富含物理因果鏈的高保真指令資產,強化了模型對跨模態物理線索的捕捉能力。此外,OmniFysics 融合了高效的統一生成機制與智能動態路由技術。這種創新設計使模型能夠根據用戶意圖自適應調度計算資源,在保持高效推理的同時,精準呈現符合物理定律(如正確的材質紋理與形變)的視覺內容。
![]()
核心中樞:
首創“雙輪驅動”物理數據生態,跨越感知鴻溝
OmniFysics之所以能“看透”表象背后的物理本質,源于其背后龐大而嚴謹的物理數據生態。針對現有公開數據集“重語義、輕物理”的缺陷,團隊構建了FysicsAny 與 FysicsOmniCap 雙中樞,從靜態屬性到動態因果,為模型注入了可驗證的物理知識。
1.FysicsAny:靜態物理屬性映射中樞
FysicsAny是首個連接視覺實體與內在物理參數的自動化流水線。為了確保數據的嚴謹性,FysicsAny 摒棄了單純依賴大模型生成的路徑,而是采用了一套包含“混合采樣-物理感知-分層檢索-定律驗證-指令構建”的五階段專家協作機制。團隊構建了包含300個標準物理原型的數據資產,涵蓋剛體、軟體與流體狀態,通過檢索專家將視覺對象映射到精確的物理參數空間(如密度、楊氏模量、粘度等)。尤為重要的是,該中樞在生成數據前強制執行物理定律驗證,例如通過本構方程驗證耦合變量的一致性,以及通過硬邊界約束剔除一切違反物理常識的“幻覺”數據。該中樞最終產出了 943K經過物理定律驗證的物理標簽和 4.7M物理指令-圖像數據,構成了當前規模最大的高質量物理屬性數據資產。
![]()
圖 1 FysicsAny 數據管道示意圖
2.FysicsOmniCap:動態視聽因果中樞
物理世界的本質在于變化與交互,FysicsOmniCap 專注于捕捉時間動態與跨模態因果性。團隊引入了視聽一致性評分機制,精準篩選出具有強因果關聯(如“敲擊聲-材質硬度”)的動態片段。該引擎采用強專家模型作為中樞大腦,調度視覺、音頻與物理感知三大專家模型協同工作。這種機制能夠合成深度物理因果鏈。例如,模型不僅能描述“一個球落地”,還能根據聲音推斷出“球體具有高剛性,落地后無塑性變形并迅速反彈”。最終,該中樞提煉出 872K 高保真指令對,使模型能夠理解隱藏在像素變化背后的物理規律。
![]()
建模范式:
緊湊型全模態統一架構,實現高效物理對齊
OmniFysics 打破了傳統模型在理解與生成之間的壁壘,提出了一種全新的全模態統一架構,以 3B 參數的大語言模型為基座,實現了對圖像、音頻、視頻與文本的統一處理與生成。
![]()
圖 2 OmniFyscis模型框架示意圖與全模態微調階段訓練數據配比
1.全模態統一交互與高保真生成
模型采用了時間多模態旋轉位置編碼,能夠精確處理交錯的視聽流輸入。在輸出端,OmniFysics 集成了兩大生成模塊:Spoken Voxer支持從多模態上下文直接預測離散音頻token,合成高保真語音;同時也具備了物理感知的圖像生成能力,能夠基于對物理屬性的深刻理解,合成符合真實物理規律的高質量元素。
2.智能動態路由機制
為了在復雜交互中平衡推理深度與響應速度,OmniFysics 創新性地融合了智能動態路由技術。該機制充當了模型的“意圖指揮官”,能夠實時分析用戶指令的句法結構與語義意圖。當識別到簡單的閑聊或基礎理解任務時,模型自動切換至輕量級感知模式,極速響應用戶指令;當檢測到涉及復雜物理模擬或高精度生成的請求時,則智能激活高階生成模塊。這種自適應計算策略確保了模型在保持極低延遲的同時,能夠精準執行符合物理規律的復雜意圖任務。
3.漸進式四階段訓練與億級全模態數據配比
OmniFysics 實施了層層遞進的四階段訓練策略,逐步解鎖全模態理解與生成能力。該流程始于單模態專家的獨立預訓練,隨后進入全模態聯合對齊階段,利用 3700萬條精心配比的指令微調數據,將圖像、視頻、音頻與文本映射到統一語義空間,并關鍵性地融入了 FysicsAny 與 FysicsOmniCap 生成的物理增強數據資產,確保模型建立起穩固的物理世界觀。在最后的生成能力突破階段,OmniFysics 進一步引入了超過 1億的高質量樣本進行專項訓練:涵蓋用于構建高保真語音映射的音頻數據,以及用于圖像生成流匹配訓練的海量圖文對。這種“理解與生成分階段、物理與語義相融合”的訓練范式,確保了模型在習得通用多模態理解的同時,能夠內化真實的物理規律。
![]()
圖 3 OmniFysics的四階段訓練流程
![]()
FysicsEval:
首個全維度物理感知與邏輯推理基準,重塑物理AI認知邊界
為了全方位量化物理AI的認知邊界,我們正式推出了FysicsEval——國際首個全維度物理感知與邏輯推理評測基準。該評測基準是一個面向多模態物理智能的全維度、多粒度評估系統,首次將物理感知與預測、物理邏輯推理、物理世界理解三大核心能力納入同一評估體系,為通用多模態模型建立了物理認知能力的統一標尺。
1.填補行業空白的綜合評估體系
現有評測基準主要針對理論解題或定性場景分析,僅能評估直覺物理或物理答題能力,無法滿足下一代通用物理AI與物理現實交互的需求。FysicsEval 強調定量預測與定律推理,旨在解決現有評測無法滿足通用大模型與物理世界交互需求的問題。基準包含 3,854 個源自真實世界的樣本,覆蓋剛體、軟體、流體三大物理形態,以及密度、摩擦系數、楊氏模量等 11 類關鍵物理參數。
![]()
表 1 FysicsEval與現有物理評測基準的全方位對比
2.三大核心能力維度的深度覆蓋
FysicsEval 建立了統一的評估框架,涵蓋三個互補的能力維度:(1)物理屬性定量預測,考察模型能否從視覺線索中反推潛在物理參數;(2)可解釋性物理推理,要求模型基于守恒定律和受力分析等,生成符合因果律的推理鏈路;(3)跨模態一致性理解,評估模型對物理世界的理解以及識別違反物理常識的“幻覺”現象的能力。通過整合定量預測、深度推理、物理理解與幻覺識別三大核心維度,FysicsEval 建立了一套嚴密的物理認知評價體系,迫使模型走出語義舒適區,直面物理世界的因果鐵律。
![]()
性能驗證:
打破 Scaling Law,小參數量下的物理智能涌現
通過多維度的綜合實驗,OmniFysics 驗證了一個重要結論:注入顯式物理知識,可以讓緊湊型模型在特定領域超越盲目擴大參數規模的通用模型。
1.物理AI感知能力的大幅躍升
在專為物理智能設計的 FysicsEval 評測中,OmniFysics (3B) 展現出驚人的爆發力,其綜合得分不僅全面超過同量級開源模型,更在多項關鍵指標上超越了Gemini-2.5-flash和Claude-4.5-Haiku等大規模參數的閉源模型整體上取得了最好的物理邏輯推理能力。在 PhysBench、QuantiPhy 等權威第三方物理榜單上,OmniFysics 同樣保持了領先優勢。這一結果有力證明了,專用物理數據中樞能夠有效彌合小參數架構與高密度物理知識之間的差距,實現物理認知的越級表現。
![]()
圖4 FysicsEval全維度物理智能評估結果
![]()
圖5物理AI感知能力評估結果
2.視覺多模態理解的穩健表現
物理能力的增強并未犧牲通用的視覺感知。在 MMBench、MMStar 等六大通用視覺理解基準評測中,OmniFysics 取得了 72.8% 的平均分,在所有同尺寸的Omni模型中位列第一。特別是在 MMMU 等涉及學科知識推理的任務上,OmniFysics 憑借其強大的物理邏輯訓練,展現出了超越傳統視覺模型的推理魯棒性。
![]()
圖6視覺多模態理解能力評估
3.全模態與視頻理解的全面領跑
在OmniBench、Video-MME 等全模態與視頻理解榜單中,OmniFysics 以 49.97 的平均分位居 3B 量級模型之首,在 5 個評估基準中有 4 個優于 Qwen2.5-Omni 3B。這證明全模態數據和物理視頻感知數據的引入,能夠增強模型對于真實音視頻環境的適應。
![]()
圖7全模態與視頻理解能力評估
4.音頻理解能力評估
在 MMAU 和 MMAR 音頻理解基準上,OmniFysics 取得了 61.2 的平均分,這一成績不僅優于 Qwen2.5-Omni 3B,更在部分指標上超越了音頻專家模型。這表明 OmniFysics 的全模態架構成功建立了對聲學信號的深度感知,并未因側重視覺物理而偏廢聽覺能力。
![]()
圖8音頻理解能力評估
5.物理忠實的高保真圖像生成
當前的主流文生圖模型及其評測體系主要側重于“語義一致性”與“藝術美感”,往往忽視了對“物理規律一致性”的考量。在定性實驗中,OmniFysics 展現了獨特的“物理轉譯”能力——它能根據“密度”、“楊氏模量”等抽象參數,生成具有正確材質光澤與形變邏輯的圖像,這是當前文生圖模型無法企及的“物理真實”。
![]()
圖9高保真物理感知的圖像生成
作為首個注入顯式物理知識的緊湊型全模態物理大模型,OmniFysics 成功跨越了隱式神經表示與顯式物理定律之間的認知鴻溝 。它不僅打破了全模態模型在參數規模上的固有依賴,證明了小參數量下物理智能涌現的可行性 ,更將多模態生成的范式從單純的“語義對齊”重塑為嚴謹的“物理忠實”。OmniFysics 確立了具備物理規律的因果邏輯與高精度物理預測能力的物理AI 新范式,為具身智能在真實物理世界中的感知、交互與演進奠定了堅實的基礎。
數據基準: https://github.com/Fysics-AI/FysicsEval
Hugging Face鏈接: https://huggingface.co/datasets/Fysics-AI/FysicsEval
飛捷科思智能科技(上海)有限公司由復旦大學智能機器人與先進制造創新學院副院長、智能機器人研究院常務副院長,原英偉達PhysX物理引擎主要奠基人與研發團隊負責人張立華教授創辦,是國內唯一擁有完全自主研發的可微分通用物理仿真引擎產品的企業。公司以新一代物理仿真引擎 Fysics為核心,致力于打造全球領先的物理智能關鍵技術與產品,推動具身智能與人形機器人技術研發及應用場景的快速落地,在高精度物理仿真引擎、高質量具身智能仿真平臺、機器人敏捷運動與魯棒智能控制等領域處于行業領先水平,并向行業提供覆蓋“仿真—訓練—部署—迭代”的全棧解決方案。依托自主可控的物理智能底座,公司持續賦能中國具身智能與機器人產業的發展。
打開鏈接:https://arxiv.org/pdf/2602.07064,下載技術報告
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.