![]()
作者 | 王啟隆 責編 |夢依丹
出品 | CSDN(ID:CSDNnews)
物理世界最迷人也最殘酷的地方在于,它沒有 Ctrl+Z。
在數字世界里,ChatGPT 可以胡說八道,大不了你重新生成一次;Midjourney 畫崩了手,你再跑一張圖也就是幾秒鐘的算力成本。但在具身原生·原力靈機技術開放日現場,這家公司試圖向我們展示的,是另一種截然不同的“智能焦慮”。
![]()
這種焦慮關乎重力,關乎摩擦,關乎因果律。
當你命令一個機器人“收拾桌子”時,如果它的動作偏差了 5 毫米,或者抓握力度小了 1 牛頓,后果可能不是生成了一行亂碼,而是一地碎玻璃。
“我們把數據工作定義為 ‘收束世界線’。”
周而進,原力靈機合伙人,用了一個極其硬核科幻的比喻。在他的描述中,具身智能(Embodied AI)的本質,是在無數個平行的、混亂的、熵增的宇宙中,強行找到那條唯一的、杯子穩穩落在桌面上、沒有打翻水、也沒有捏碎玻璃的“成功軌跡”。
這聽起來像是在拍《信條》,但這確實是 2026 年初,這家由一群 AI 1.0 時代老兵(前曠視科技聯合創始人唐文斌帶隊)組成的創業公司,在“百模大戰”的余燼中試圖開辟的新戰場。
他們沒有發布千億參數的聊天機器人,而是拿出了一個僅有 2.4B 參數的具身大模型 DM0,以及一套名為 Dexbotic 2.0 的開發框架。他們的野心很明確:如果說 GPT 是互聯網數據的壓縮,那么他們想做的是“物理規律的壓縮”。
這是一場關于“身體”的保衛戰,也是一場對 Scaling Law(尺度定律)的重新審視。
![]()
逃離“互聯網借智”:為什么機器人需要從頭學步?
在很長一段時間里,具身智能領域流行一種“拿來主義”。
大家習慣的做法是:下載一個開源的 VLM,給它裝上一雙手,然后通過微調告訴它:“嘿,這是蘋果,把它拿起來。”
這種做法看似討巧,利用了互聯網大模型海量的泛化知識。但在周而進看來,這就像是讓一個讀遍了百科全書但從未下過地的“缸中之腦”去踢足球。
“你能想象一個嬰兒,是先學會了對話、學會了背唐詩,然后才學會爬、學會找奶瓶的嗎?”周而進在采訪中反問道,“如果是那樣,這個嬰兒早就餓死了。”
這就是原力靈機強調的“具身原生”(Embodied Native)概念的起點。
人類的智能發育,是從感知重力、感知距離、感知冷熱開始的。我們的語言能力,是建立在對物理世界深刻理解的“地基”之上的。而現在的許多具身模型,地基是懸空的。它們認識“蘋果”這個詞,能寫出蘋果的營養成分表,但它們不知道蘋果表面的摩擦系數,不知道用力捏會流汁水,不知道圓球體在桌面上會滾動。
為了解決這個問題,原力靈機做了一個大膽的決定:不繼承現有的 VLM,而是從零開始訓練一個真正懂物理的大模型。
![]()
這不僅僅是數據源的替換,更是認知維度的重構。
周而進在現場補充了一個極具洞察力的觀點:“自動駕駛其實是具身智能的一個子集,但它的容錯率極低。而現在的機器人,需要的不是那種只懂交通規則的腦子,而是包含了室內導航、復雜操作、人機交互的 ‘全能腦’。”
在 DM0 的訓練集中,他們引入了三類數據:
互聯網數據:提供通用的物體識別和語義理解(這是常識,比如知道“把紅色的杯子拿來”中的紅色是什么)。
自動駕駛數據:這是目前人類擁有的最大規模的“開放物理世界描述”。它教會模型理解透視、遮擋、運動物體的軌跡預測。
具身原生數據:這是最稀缺的。是機械臂每一次抓取、每一次碰撞、每一次失敗的記錄。
“以前大家爭論是用哪個大模型來改,我們直接跳出這個問題——為什么要改?為什么不從第一行代碼就為機器人而寫?”
這種“原生”的執念,直接導致了 DM0 在架構上的反常規。
![]()
2.4 B 的反擊:智能密度與“毫米級”的尊嚴
在閉源三巨頭邁向萬億參數的時代,DM0 的參數量只有 2.4 B(24億)。
在很多媒體眼中,這甚至算不上“大”模型。但在工業現場,這個數字代表著一種極致的工程美學。
“大家都在問 ‘用哪個大模型最好’,我們問的是 ‘為什么要用大模型’?”周而進解釋道。在具身場景下,模型不是用來寫詩的,它是用來干活的。
這里涉及到一個核心矛盾:推理延遲 vs 物理響應。
工業流水線上的節拍通常是毫秒級的。一個工件流過來,機器人必須在 0.1 秒內決定怎么抓。如果模型為了追求“博學”,搞了幾百億參數,推理一次需要 2 秒,那黃花菜都涼了。
DM0 的 2.4 B 參數,配合 60ms 的端到端推理延遲(在消費級 5090 顯卡上甚至更快),恰好卡在了這個“實用性”的甜點上。
但這引發了另一個質疑:這么小的模型,腦子夠用嗎?
DM0 把技能點加在了“空間推理思維鏈”(Spatial CoT)上。
傳統的 VLA(視覺-語言-動作)模型,往往只能做到“大概齊”。比如“拿起杯子”,它知道杯子在哪,但手伸過去的時候可能是歪的。
而 DM0 引入了一種特殊的思維鏈機制。當它接到指令時,它不會直接輸出動作,而是先在腦子里構建一個 3D 的空間坐標系,進行Physical Grounding(物理定位)。
這一切,都發生在那個小小的 2.4 B 模型里。它去掉了寫代碼、講笑話的冗余神經元,只保留了對物理世界最敏銳的直覺。
在原力靈機聯合Hugging Face發起的大規模真機測評體系 RoboChallenge 上,DM0 在 30 多個桌面級任務中拿到了綜合得分第一。這證明了:在物理世界里,精準的直覺遠比廣博的知識更重要。
![]()
數據哲學:在熵增的宇宙里尋找確定性
這次溝通會最讓我印象深刻的,不是那些跑分,而是他們對“數據”的哲學思考。
“熵在哪里,數據就投向哪里。”
這是范浩強(原力靈機合伙人)提出的數據采集策略。他們似乎不迷信仿真(Simulation),而堅持要搞大量真機實操。
在仿真環境里,物理規律是人寫的。F=ma 永遠成立,摩擦力永遠是恒定的。這是一個低熵的、確定的世界。
但在真實世界里,情況要復雜得多。
比如“抓取一個裝滿水的軟塑料瓶”。
用力太大,水會噴出來,重心會變。
用力太小,瓶子會滑落。
瓶身可能有水珠,摩擦系數瞬間降低。
這種“非結構化的不確定性”,是仿真器模擬不出來的。這就是“熵”最高的地方。
周而進用“平行宇宙”來解釋他們的訓練目標:“因為你拿起了手機,瓶子可能會被碰掉。你每一個微小的動作差異,都會導致未來世界線的分叉。我們采集數據的目的,就是告訴模型:在這一萬種分叉的可能性中,哪一條線是你能把活干完,而且不闖禍的。”
為了捕捉這些“高熵”數據,原力靈機甚至去印尼接過自動化項目,去物流倉庫里通過遙操作(Teleoperation)采集數據。
他們發現,那些最難用規則描述的場景——比如把一堆亂七八糟的快遞分揀開,或者把纏在一起的數據線解開——恰恰是具身大模型最能發揮價值的地方。
“對于規則清晰的任務(如下圍棋),數據等于算力,你可以在仿真里無限自我對弈。但對于規則模糊的任務(如收拾房間),數據等于經驗的映射。”
這解釋了為什么特斯拉做 Optimus 也要靠人穿著動捕服去疊衣服,而不是在電腦里跑仿真。因為物理世界的“手感”,是算不出來的,只能練出來。
![]()
商業化的“冷水澡”:2026 依然不是爆發年
在軟件工程里,程序員最喜歡的指令之一叫 try catch。它的意思是:如果代碼運行出錯了,沒關系,捕獲這個錯誤,讓程序繼續跑,或者優雅地報錯。
但在物理世界里,沒有 try catch。
當一個重達幾百公斤的工業機器人揮舞著機械臂砸向地面,或者一個服務機器人把滾燙的咖啡潑在用戶身上時,你無法通過一行代碼來“捕獲”這個錯誤。物理世界的異常,往往意味著損壞、賠償,甚至人身傷害。
現在的具身智能賽道,熱得發燙。融資新聞滿天飛,人形機器人排隊上市。但在這種狂熱中,原力靈機的高管們卻顯得異常冷靜,甚至有點“潑冷水”的意味。
“2026 年是閉不了環的。”范浩強直言不諱,“這應該是業界共識。”
他把 2026 年定義為“真應用涌現之年”,但也僅僅是涌現,離規模化復制還有距離。現在大多數的落地,還停留在 POC(概念驗證)階段——在客戶的工廠里搭個小棚子,跑個幾百次,拍個視頻,領導來了演示一下,然后運回去。
這不叫商業化,這叫“高科技路演”。
唐文斌認為,真正的商業閉環,必須回答兩個極其樸素的問題:
流程是否完整閉環?機器人能不能處理 100% 的情況?如果掉了東西怎么辦?如果遇到沒見過的包裝怎么辦?在物流場景里,80% 的代碼是在處理異常(Exception Handling),而不是在處理正常流程。
賬算不算得過來?你用一個幾十萬的機器人,替代一個幾千塊工資的工人,ROI(投資回報率)在哪里?
原力靈機最終鎖定的第一戰場是——物流分揀與上下料。
這是一個完美的靶場:環境相對結構化(倉庫),對象極端非結構化(千萬種 SKU),允許偶爾抓不住(重抓一次就行),而且是高強度的重復勞動。
![]()
做“賣鏟子”的人,也做“挖金礦”的人
如果是做純軟件的 AI 公司,發個模型就完事了。但原力靈機花了一整年的時間,開發了一套開源框架 Dexbotic 2.0,還搞了一個評測平臺 RoboChallenge。
現場有記者問,你們到底是家什么公司?
他們說,“我們一定是一個機器人公司”。
在媒體溝通會上,汪天才(原力靈機合伙人)把 Dexbotic+RLinf 比作“具身智能的 PyTorch”。
這又是一個反直覺的動作。創業公司通常是做應用的,做基建(Infra)是大廠的活兒。
唐文斌的解釋很實在:“因為我們發現,這個行業連個能用的輪子都沒有。”
具身智能現在的狀態,很像 2012 年之前的深度學習。大家各自為戰,每個實驗室都有自己的一套代碼,數據格式不通,接口不通,連評測標準都不一樣。
A 公司的模型只能控制 A 公司的機械臂。
B 大學的仿真數據喂不進 C 公司的模型里。
大家都在重復造輪子,而且造的都是方輪子。
“我們不認為現在的模型結構是終局。我們甚至不認為端到端是唯一的解。”汪天才說。提供一個標準化的框架,是為了讓整個行業——包括高校、研究機構、友商——能夠在一個統一的語境下對話。
這是一種“修路”的邏輯。雖然修路很苦,不賺錢,但路修好了,跑在上面的車(模型和應用)才能快起來。而原力靈機賭的是,自己造的那輛車(DM0),會是這條路上跑得最快的一輛。
走出金隅智造工場,北京的寒風依舊。
原力靈機這家公司,給人的感覺很復雜。他們身上既有學院派的理想主義(堅持搞開源、搞評測、搞基礎理論),又有江湖派的實用主義(去倉庫搬箱子、算細賬、搞臟活累活)。
他們既想做“賣鏟子”的人——通過 Dexbotic 和 RoboChallenge 定義行業標準,成為具身智能時代的“基礎設施供應商”;又想做“挖金礦”的人——親自下場,用 DM0 打造出真正的機器人產品,解決具體的物理世界難題。
這聽起來很矛盾,但這或許正是 AI 2.0 時代創業公司的典型樣本。
在巨頭環伺、資本退潮的當下,單靠講故事已經拿不到錢了。你必須證明你有仰望星空的能力(搞定 SOTA 模型),同時證明你有腳踏實地的身段(搞定客戶的賬單)。
2026 年或許不是具身智能的元年,但它很可能是“具身原生”覺醒的一年。
從這一年開始,機器人不再是只會執行死命令的機器,也不再是只會聊天的音箱。它們開始長出自己的眼睛,學會用自己的身體去感知重力、摩擦和碰撞。它們開始在無數次跌倒和失敗中,收束那條通往成功的世界線。
而原力靈機,正站在這個十字路口,試圖用 2.4 B 的模型和無數行的代碼,為這個即將到來的物理智能時代,鋪上一塊堅實的墊腳石。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.