網易首頁 > 網易號 > 正文申請入駐

當一只杯子決定墜落：原力靈機與“收束世界線”的工程學

2026-02-11 23:59:48　來源: CSDN

北京舉報

分享至

作者 | 王啟隆責編 |夢依丹

出品 | CSDN（ID：CSDNnews）

物理世界最迷人也最殘酷的地方在于，它沒有 Ctrl+Z。

在數字世界里，ChatGPT 可以胡說八道，大不了你重新生成一次；Midjourney 畫崩了手，你再跑一張圖也就是幾秒鐘的算力成本。但在具身原生·原力靈機技術開放日現場，這家公司試圖向我們展示的，是另一種截然不同的“智能焦慮”。

這種焦慮關乎重力，關乎摩擦，關乎因果律。

當你命令一個機器人“收拾桌子”時，如果它的動作偏差了 5 毫米，或者抓握力度小了 1 牛頓，后果可能不是生成了一行亂碼，而是一地碎玻璃。

“我們把數據工作定義為 ‘收束世界線’。”

周而進，原力靈機合伙人，用了一個極其硬核科幻的比喻。在他的描述中，具身智能（Embodied AI）的本質，是在無數個平行的、混亂的、熵增的宇宙中，強行找到那條唯一的、杯子穩穩落在桌面上、沒有打翻水、也沒有捏碎玻璃的“成功軌跡”。

這聽起來像是在拍《信條》，但這確實是 2026 年初，這家由一群 AI 1.0 時代老兵（前曠視科技聯合創始人唐文斌帶隊）組成的創業公司，在“百模大戰”的余燼中試圖開辟的新戰場。

他們沒有發布千億參數的聊天機器人，而是拿出了一個僅有 2.4B 參數的具身大模型 DM0，以及一套名為 Dexbotic 2.0 的開發框架。他們的野心很明確：如果說 GPT 是互聯網數據的壓縮，那么他們想做的是“物理規律的壓縮”。

這是一場關于“身體”的保衛戰，也是一場對 Scaling Law（尺度定律）的重新審視。

逃離“互聯網借智”：為什么機器人需要從頭學步？

在很長一段時間里，具身智能領域流行一種“拿來主義”。

大家習慣的做法是：下載一個開源的 VLM，給它裝上一雙手，然后通過微調告訴它：“嘿，這是蘋果，把它拿起來。”

這種做法看似討巧，利用了互聯網大模型海量的泛化知識。但在周而進看來，這就像是讓一個讀遍了百科全書但從未下過地的“缸中之腦”去踢足球。

“你能想象一個嬰兒，是先學會了對話、學會了背唐詩，然后才學會爬、學會找奶瓶的嗎？”周而進在采訪中反問道，“如果是那樣，這個嬰兒早就餓死了。”

這就是原力靈機強調的“具身原生”（Embodied Native）概念的起點。

人類的智能發育，是從感知重力、感知距離、感知冷熱開始的。我們的語言能力，是建立在對物理世界深刻理解的“地基”之上的。而現在的許多具身模型，地基是懸空的。它們認識“蘋果”這個詞，能寫出蘋果的營養成分表，但它們不知道蘋果表面的摩擦系數，不知道用力捏會流汁水，不知道圓球體在桌面上會滾動。

為了解決這個問題，原力靈機做了一個大膽的決定：不繼承現有的 VLM，而是從零開始訓練一個真正懂物理的大模型。

這不僅僅是數據源的替換，更是認知維度的重構。

周而進在現場補充了一個極具洞察力的觀點：“自動駕駛其實是具身智能的一個子集，但它的容錯率極低。而現在的機器人，需要的不是那種只懂交通規則的腦子，而是包含了室內導航、復雜操作、人機交互的 ‘全能腦’。”

在 DM0 的訓練集中，他們引入了三類數據：

互聯網數據：提供通用的物體識別和語義理解（這是常識，比如知道“把紅色的杯子拿來”中的紅色是什么）。
自動駕駛數據：這是目前人類擁有的最大規模的“開放物理世界描述”。它教會模型理解透視、遮擋、運動物體的軌跡預測。
具身原生數據：這是最稀缺的。是機械臂每一次抓取、每一次碰撞、每一次失敗的記錄。

“以前大家爭論是用哪個大模型來改，我們直接跳出這個問題——為什么要改？為什么不從第一行代碼就為機器人而寫？”

這種“原生”的執念，直接導致了 DM0 在架構上的反常規。

2.4 B 的反擊：智能密度與“毫米級”的尊嚴

在閉源三巨頭邁向萬億參數的時代，DM0 的參數量只有 2.4 B（24億）。

在很多媒體眼中，這甚至算不上“大”模型。但在工業現場，這個數字代表著一種極致的工程美學。

“大家都在問 ‘用哪個大模型最好’，我們問的是 ‘為什么要用大模型’？”周而進解釋道。在具身場景下，模型不是用來寫詩的，它是用來干活的。

這里涉及到一個核心矛盾：推理延遲 vs 物理響應。

工業流水線上的節拍通常是毫秒級的。一個工件流過來，機器人必須在 0.1 秒內決定怎么抓。如果模型為了追求“博學”，搞了幾百億參數，推理一次需要 2 秒，那黃花菜都涼了。

DM0 的 2.4 B 參數，配合 60ms 的端到端推理延遲（在消費級 5090 顯卡上甚至更快），恰好卡在了這個“實用性”的甜點上。

但這引發了另一個質疑：這么小的模型，腦子夠用嗎？

DM0 把技能點加在了“空間推理思維鏈”（Spatial CoT）上。

傳統的 VLA（視覺-語言-動作）模型，往往只能做到“大概齊”。比如“拿起杯子”，它知道杯子在哪，但手伸過去的時候可能是歪的。

而 DM0 引入了一種特殊的思維鏈機制。當它接到指令時，它不會直接輸出動作，而是先在腦子里構建一個 3D 的空間坐標系，進行Physical Grounding（物理定位）。

這一切，都發生在那個小小的 2.4 B 模型里。它去掉了寫代碼、講笑話的冗余神經元，只保留了對物理世界最敏銳的直覺。

在原力靈機聯合Hugging Face發起的大規模真機測評體系 RoboChallenge 上，DM0 在 30 多個桌面級任務中拿到了綜合得分第一。這證明了：在物理世界里，精準的直覺遠比廣博的知識更重要。

數據哲學：在熵增的宇宙里尋找確定性

這次溝通會最讓我印象深刻的，不是那些跑分，而是他們對“數據”的哲學思考。

“熵在哪里，數據就投向哪里。”

這是范浩強（原力靈機合伙人）提出的數據采集策略。他們似乎不迷信仿真（Simulation），而堅持要搞大量真機實操。

在仿真環境里，物理規律是人寫的。F=ma 永遠成立，摩擦力永遠是恒定的。這是一個低熵的、確定的世界。

但在真實世界里，情況要復雜得多。

比如“抓取一個裝滿水的軟塑料瓶”。

用力太大，水會噴出來，重心會變。
用力太小，瓶子會滑落。
瓶身可能有水珠，摩擦系數瞬間降低。

這種“非結構化的不確定性”，是仿真器模擬不出來的。這就是“熵”最高的地方。

周而進用“平行宇宙”來解釋他們的訓練目標：“因為你拿起了手機，瓶子可能會被碰掉。你每一個微小的動作差異，都會導致未來世界線的分叉。我們采集數據的目的，就是告訴模型：在這一萬種分叉的可能性中，哪一條線是你能把活干完，而且不闖禍的。”

為了捕捉這些“高熵”數據，原力靈機甚至去印尼接過自動化項目，去物流倉庫里通過遙操作（Teleoperation）采集數據。

他們發現，那些最難用規則描述的場景——比如把一堆亂七八糟的快遞分揀開，或者把纏在一起的數據線解開——恰恰是具身大模型最能發揮價值的地方。

“對于規則清晰的任務（如下圍棋），數據等于算力，你可以在仿真里無限自我對弈。但對于規則模糊的任務（如收拾房間），數據等于經驗的映射。”

這解釋了為什么特斯拉做 Optimus 也要靠人穿著動捕服去疊衣服，而不是在電腦里跑仿真。因為物理世界的“手感”，是算不出來的，只能練出來。

商業化的“冷水澡”：2026 依然不是爆發年

在軟件工程里，程序員最喜歡的指令之一叫 try catch。它的意思是：如果代碼運行出錯了，沒關系，捕獲這個錯誤，讓程序繼續跑，或者優雅地報錯。

但在物理世界里，沒有 try catch。

當一個重達幾百公斤的工業機器人揮舞著機械臂砸向地面，或者一個服務機器人把滾燙的咖啡潑在用戶身上時，你無法通過一行代碼來“捕獲”這個錯誤。物理世界的異常，往往意味著損壞、賠償，甚至人身傷害。

現在的具身智能賽道，熱得發燙。融資新聞滿天飛，人形機器人排隊上市。但在這種狂熱中，原力靈機的高管們卻顯得異常冷靜，甚至有點“潑冷水”的意味。

“2026 年是閉不了環的。”范浩強直言不諱，“這應該是業界共識。”

他把 2026 年定義為“真應用涌現之年”，但也僅僅是涌現，離規模化復制還有距離。現在大多數的落地，還停留在 POC（概念驗證）階段——在客戶的工廠里搭個小棚子，跑個幾百次，拍個視頻，領導來了演示一下，然后運回去。

這不叫商業化，這叫“高科技路演”。

唐文斌認為，真正的商業閉環，必須回答兩個極其樸素的問題：

流程是否完整閉環？機器人能不能處理 100% 的情況？如果掉了東西怎么辦？如果遇到沒見過的包裝怎么辦？在物流場景里，80% 的代碼是在處理異常（Exception Handling），而不是在處理正常流程。
賬算不算得過來？你用一個幾十萬的機器人，替代一個幾千塊工資的工人，ROI（投資回報率）在哪里？

原力靈機最終鎖定的第一戰場是——物流分揀與上下料。

這是一個完美的靶場：環境相對結構化（倉庫），對象極端非結構化（千萬種 SKU），允許偶爾抓不住（重抓一次就行），而且是高強度的重復勞動。

做“賣鏟子”的人，也做“挖金礦”的人

如果是做純軟件的 AI 公司，發個模型就完事了。但原力靈機花了一整年的時間，開發了一套開源框架 Dexbotic 2.0，還搞了一個評測平臺 RoboChallenge。

現場有記者問，你們到底是家什么公司？

他們說，“我們一定是一個機器人公司”。

在媒體溝通會上，汪天才（原力靈機合伙人）把 Dexbotic+RLinf 比作“具身智能的 PyTorch”。

這又是一個反直覺的動作。創業公司通常是做應用的，做基建（Infra）是大廠的活兒。

唐文斌的解釋很實在：“因為我們發現，這個行業連個能用的輪子都沒有。”

具身智能現在的狀態，很像 2012 年之前的深度學習。大家各自為戰，每個實驗室都有自己的一套代碼，數據格式不通，接口不通，連評測標準都不一樣。

A 公司的模型只能控制 A 公司的機械臂。

B 大學的仿真數據喂不進 C 公司的模型里。

大家都在重復造輪子，而且造的都是方輪子。

“我們不認為現在的模型結構是終局。我們甚至不認為端到端是唯一的解。”汪天才說。提供一個標準化的框架，是為了讓整個行業——包括高校、研究機構、友商——能夠在一個統一的語境下對話。

這是一種“修路”的邏輯。雖然修路很苦，不賺錢，但路修好了，跑在上面的車（模型和應用）才能快起來。而原力靈機賭的是，自己造的那輛車（DM0），會是這條路上跑得最快的一輛。

走出金隅智造工場，北京的寒風依舊。

原力靈機這家公司，給人的感覺很復雜。他們身上既有學院派的理想主義（堅持搞開源、搞評測、搞基礎理論），又有江湖派的實用主義（去倉庫搬箱子、算細賬、搞臟活累活）。

他們既想做“賣鏟子”的人——通過 Dexbotic 和 RoboChallenge 定義行業標準，成為具身智能時代的“基礎設施供應商”；又想做“挖金礦”的人——親自下場，用 DM0 打造出真正的機器人產品，解決具體的物理世界難題。

這聽起來很矛盾，但這或許正是 AI 2.0 時代創業公司的典型樣本。

在巨頭環伺、資本退潮的當下，單靠講故事已經拿不到錢了。你必須證明你有仰望星空的能力（搞定 SOTA 模型），同時證明你有腳踏實地的身段（搞定客戶的賬單）。

2026 年或許不是具身智能的元年，但它很可能是“具身原生”覺醒的一年。

從這一年開始，機器人不再是只會執行死命令的機器，也不再是只會聊天的音箱。它們開始長出自己的眼睛，學會用自己的身體去感知重力、摩擦和碰撞。它們開始在無數次跌倒和失敗中，收束那條通往成功的世界線。

而原力靈機，正站在這個十字路口，試圖用 2.4 B 的模型和無數行的代碼，為這個即將到來的物理智能時代，鋪上一塊堅實的墊腳石。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.