網易首頁 > 網易號 > 正文申請入駐

對話原力靈機唐文斌：純“世界模型”路線走不通

2026-03-20 19:26:11　來源: 全天候科技

上海舉報

分享至

作者 | 鄭敏芳編輯 | 松壑

一場關于具身智能的“數據暗戰”正在悄然打響。

今年 1 月，湖北人形機器人創新中心向智元機器人交付了數千小時的訓練數據，完成了國內首例定制化人形機器人數據交易。

行業巨頭方面，京東日前喊出了建成全球規模最大、場景最全的具身智能數據采集中心的口號，計劃動員超10萬內部員工及最多50萬外部人員，開啟一場史無前例的“人海戰術”。

視線轉向海外，韓國機器人公司 Robotis 于今年 1 月在烏茲別克斯坦設立子公司，計劃在一塊 11 萬平方米的土地上建起一座巨大的“數據工廠”，用于收集機器人行為數據。

按小時計費的定制化交易、數十萬人的大動員、遠赴中亞建廠，這一系列舉措都折射出整個具身智能行業沉重的“數據焦慮”。

與在互聯網語料中成長的大語言模型不同，具身智能需要理解世界并與真實世界進行交互，這對數據的真實性、模態等都提出了更高的要求。

這也是原力靈機創始人兼CEO唐文斌當下正在攻堅的難題之一。

回溯履歷，唐文斌更為人熟知的身份是上一波AI浪潮中明星獨角獸曠視科技的聯合創始人兼CTO。

成立僅一年的原力靈機已經悄然吸金超10億元，拿下了阿里、蔚來、君聯、啟明等頭部機構的投資。

目前原力靈機已發布旗下首個具身原生大模型 DM0，并與華勤技術達成戰略合作，實現數據采集機器人 DOS?W1 的量產交付。

在經歷了上一波AI落地的洗禮后，唐文斌對行業有了更多的敬畏之心。

在日前與華爾街見聞·全天候科技的對話中，唐文斌分享了原力靈機的數據采集思路：不依賴單一來源，而是以“質量?數量?多樣性”的組合方式實施分布式采集，以此填滿機器人的能力空間。

對于通過世界模型生成數據，讓機器人能夠模仿學習的路線，唐文斌認為這條路難以走通，他指出更為可行的范式是將世界模型與VLA（視覺-語言-動作）模型相統一。即不僅能預測未來世界，還能據此反推出所需的精準動作。

當行業玩家們正以各自的方式瘋狂“囤積”數據糧草時，究竟哪種路線才能“笑到最后”，市場正在拭目以待。

以下是對話實錄。

一

詳細數據采集

全天候科技：能否分享你們的數據采集思路？

唐文斌：目前我們還是模仿加強化學習的方式。

模仿涉及數據分布的模擬。我們的目標是讓數據盡可能地填滿機器人的能力空間，見過足夠多的東西。核心在于識別未見過場景的處理能力，數據的價值便在于此，所以我們的數據采集是圍繞開放環境和實際場景展開。

但我們會希望數據保持高質量的同時，還能夠盡可能的填滿這個空間，所以我覺得數據是一個“質量?數量?多樣性”的組合問題。

全天候科技：那數據如何進行采集？

唐文斌：其實我們并不依賴某一種數據來源，這樣做也沒必要，基本上是一個組合模式。真機數據方面，主要通過各種經過校準的傳感器進行采集，具體包括類似外骨骼等，但確實采集成本會比較高。

同時，我們也會通過無本體和第一人稱視角收集數據，形成更大規模的數據集，這其實就是介于真機和合成數據的中間派了。

除此之外，還有采集成本更低的互聯網數據。

全天候科技：能否具體解釋無本體采集？

唐文斌：無本體的意思就是說它可能是一個手套或手持夾爪，沒有機械臂、機器人的身體，所以相當于就只是用了一個末端裝置。我記錄了這個末端裝置的大致位置和狀態，目前這種數據采集方式也被稱為UMI。

今天，我們討論的第一人稱視角數據也很多，例如通過眼鏡拍攝操作過程，這也是一種無本體的采集方式。

全天候科技：每個人的AI眼鏡數據都具有隱私性，應該沒有人愿意公開自己眼鏡的數據供采集。你們怎么解決這個問題？

唐文斌：確實，如果我作為眼鏡的用戶，我也不想把我的數據分享給大家。但是訓練的話，我們可以請一些第三方的數據采集員，通過日常佩戴眼鏡記錄工作流程，然后數據也會被記下來。

當然，我們也希望眼鏡本身的功能可以更加強大，比如有立體視覺、多目的能力。同時我們未來可能還會增加手環、手套的裝置用于采集數據。

所以整體來看我們采集的對象是多樣化的。第一類是機器人本身，可以遙控操作；第二類是類似于夾爪等的無本體，即“人的身體+機器人末端”的裝置；第三類是完全針對人體的采集；第四類則是對物理世界的描述。

全天候科技：例如在末端傳感器中，主要采集的是力的數據嗎？

唐文斌：不只是力度，我們還是希望數據是多模態的，比如包括增加視角。

實操方面，因為手臂可能會遮擋部分數據，我們可以眼睛部位裝配一個相機，兩個手腕上也可能各有兩個相機，形成多視角的數據。

全天候科技：這種采集成本會很高嗎？

唐文斌：這其實就是一個數據質量、數量和多樣性的復雜問題。如果需要采集所有模塊的數據，成本將變得非常高昂。所以我們采用分布式的采集策略，有些數據我們會盡可能地保證其完整性，而有些數據為了降低成本、增加數量和提高速度，可能就不再那么注重完整性。

這是一個權衡的問題，我們擁有自己的采集工具，并且廣泛地與其他行業合作。

全天候科技：今年2月你們跟華勤技術合作推出了數據采集機器人，能否分享這款機器人的情況？

唐文斌：這款機器人主要是用在科研的場景，有點類似于ALOHA機器人的形態，同行也有在做這個。（注：ALOHA代表"A Low-cost Open-source Hardware system for bimanual teleOperation"，是一種用于雙手遠程操作的低成本開源硬件系統）

但是目前市場的數據采集機器人存在兩大痛點，

一方面是可靠性，產品表現確實不盡如人意，例如頻繁故障會對科研工作產生負面影響，降低工作效率。

我們目前也無法確保產品的長時間穩定性，所以我們的改進點是簡化了修理過程，設計了模塊化可拆卸的產品結構。一旦某個部件損壞，用戶可以快速更換。例如很多地方的連接處都不是螺絲，是那種旋鈕，所以可能30秒就能修好了；

另一方面是成本仍然比較高，所以我們通過與華勤的合作設計了一款類似ALOHA的產品，支持主從、拖拽式操作。最核心就是修得快，價格便宜。（注：主從是指人通過操控主臂，實現對從臂的實時遠程控制，動作零延遲復刻，以此實現實現低成本、高精度的雙臂精細操作數據的采集。）

全天候科技：同行買過這個機器人去采集數據嗎？

唐文斌：是的，其實行業的痛點還是比較一致的，所以其實大家都會買同行的產品回去搭配一起使用。

二

世界模型路線走不通

全天候科技：能不能聊一聊對世界模型和VLA的看法？

唐文斌：這里要區分兩點，就是理解世界和生成世界是不一樣的。

我們今天討論的大模型能力，大家普遍關注的是它們理解世界的能力。世界模型實際上是在嘗試預測未來，即預測下一幀可能會是什么樣子的，而VLA的實質是與世界交互。

這些模型具有共通性，但又能夠從不同的角度解決問題。

我們覺得最佳的策略是相結合。只有這樣，我們才能真正理解并生成內容，理解和與世界交互。

理論上來說，如果能夠預測未來世界，我們便能夠反向推斷出我們應該如何操作。而如果我們知道如何操作，那說明我們是能夠預測未來的發展。

所以我們現在的技術框架里世界模型跟VLA是統一的，就是我們希望一個模型既能夠理解這個世界，同時又能預測后續。

如此一來，模型不僅能執行動作，還能預測執行該動作后世界將如何變化。

全天候科技：行業的技術框架是否和你們不同？

唐文斌：確實，目前一些公司主張僅使用世界模型。有觀點是認為通過世界模型生成數據，讓機器人能夠模仿學習，這樣就產生了一個無限的數據源。

但我自己覺得這條路是走不通的，因為如果世界模型已經實現了，那生成的問題就已經解決了，大家也不需要通過生成的數據再去訓練機器人了。

那另外一條路就是我們和很多同行會去做的，就是通過預測未來世界模型，然后根據這個模型反推出所需的動作，這種方法涉及到先預測未來的場景或世界狀態，再計算出相應的動作序列，這種范式其實就是我剛才講的相結合統一的模型框架。

全天候科技：從場景上來說，由于當前工廠的產線自動化程度很高，機器人進廠打工會不會沒有用武之地？

唐文斌：確實當前工廠的自動化解決方案已經相當成熟。但我們想去解決的是原來解決不了的問題，或者是原來解決起來成本很高的問題。

但其實大家看到的很多自動化產線對泛化性要求是沒有那么高的，即不需要對象、環境和任務的泛化。例如可能SKU就幾個，光照等外部環境條件已經過調節。

那當前解決不了的問題其實是對象多樣化，環境也隨時在變化，甚至可能會有很多不同的任務。

以物流場景為例，現在大家的機器人做的主要是搬運工作，但是沒有做好手上的操作，因為這對泛化性的要求很高。

例如你購買了一瓶可樂和一包薯片，操作員就會把可樂和薯片分別包裝好。由于商品種類繁多且環境條件不斷變化，這個其實就很難用自動化設備解決。

還有包裝的場景，以瓶裝沐浴露為例，我們收到產品時會發現瓶口部纏一圈塑料膜，這是為了防止沐浴露泄露。

實際操作過程中，目前通常是操作人員基于經驗，纏上保鮮膜再放入泡沫袋中，并在封口貼上標簽，這就沒辦法通過自動化設備來完成。

我們現在主要是在物流、工業上有做一些嘗試。

全天候科技：你們是傾向于在特定場景進行集中開發，還是想在多個場景同時鋪開？

唐文斌：這個要分兩頭講，觀察大模型的發展，尤其是當前最新的進展，可以發現一個共同的趨勢。如果我們現在只構建了一個垂直領域的模型，它是無法達到真正有泛化能力的模型，這是行不通的。

因此，從模型的角度來看，我們必須堅定地追求泛化性，追求更加通用的技術能力。

但從應用場景落地的角度來看，我們確實得一個一個場景去落地，逐一實現。

所以我們內部經常強調產品落地有兩點核心，首先，我們的解決方案必須能夠形成閉環，即解決客戶業務中的所有問題和異常情況，滿足所有流程需求。其次，我們需確保成本可控，讓客戶覺得合作劃算。

只有在滿足這兩個前提條件時，客戶才可能考慮規模化應用我們的產品。

所以我們每實施一個場景，都必須清晰地理解客戶價值，并確保這兩個要點都能得以實現。這是一個逐年下單的過程。

我們內部把這個過程描述為模型發展與應用落地之間的關系，它們之間存在45度夾角，即它們相關但并不絕對相關。

當然，我們的模型需要朝著那個通用方向發展。

三

對場景要有敬畏之心

全天候科技：所以你們是主張通用機器人的路線嗎？

唐文斌：我個人認為模型具有通用性，但硬件很難實現。

其實我們的雙手非常靈活，一只可以執行精細操作，同時也能舉起20斤的重物，甚至更厲害還能舉起50斤的重物。

但是受到物理學和材料學的限制，能夠舉起2公斤商品的機械臂和能舉起20公斤重物的機械臂肯定不同，因為它們的功率密度不同。

所以我們認為如果你采用一個通用的設計并應用到具體場景中，很容易發現這是欠設計或者過設計。

欠設計就是可能重量限制無法通過，或者是傳感器的安裝空間過于狹窄，導致無法解決問題；可能恰好能搞定，但這可能過度設計了，價格就會變得很高。

以輪式雙臂為例，當重心較高時，它跑得更快。但一旦速度起來，它就很難停下來，否則就會摔倒。

這時我們可能會發現，在某些場景中，靜止不動可能是一個更優的選擇，讓移動的車輛將物品送過來。

因此，可能在這些場合會存在過度設計的問題。

我們的內部邏輯是讓模型具有通用性，并且能夠適應不同的硬件平臺。

全天候科技：所以現在投資人比較看重你們的能力是模型？

唐文斌：對，我們團隊的獨特之處在于不僅從事機器人場景的研發，而且深入理解模型。我們在曠視的物流領域積累了豐富的經驗，并且具備一定的規模，因此對產品有較深的理解，同時我們擁有一群專注于模型優化的專業人士。

全天候科技：因為很多可能某一個行業內的公司對于本行業的需求會比較了解，但你們是模型業務起家，會不會對場景需求的了解程度比較弱？

唐文斌：其實之前我們在曠視的時候就做了很多的場景了，所以我覺得我們還算是一幫被教育過的人。

這其實是心態問題，其實機器人行業是需要兩撥人，一波人更懂技術，一波人更懂場景，我們其實是站在中間的人。

其實光搞技術的人會對場景做很多的假設，他覺得不就是這些。但真實場景中的魔鬼隱藏在細節之中。例如當出現問題時，生產流程不能停，因此必須有完善的異常處理流程。

因此，技術工作的人必須對場景懷有敬畏之心。

但行業的人也有很多問題，我們歷史上就是很多同事對技術上會有兩種狀態，一開始覺得技術無所不能，一旦涉及到AI智能，他們就會期望你能解決所有問題。然而當他們發現某些問題無法解決時，就會感到極度失望，進而選擇回歸到傳統的、基于規則的方法。

但今天模型的發展其實既不是能達到無所不能，也不是什么都不行，是在一個中間階段，并且斜率很高，處于快速發展狀態。

所以我們非常需要能夠既對場景有判斷，理解算法及其發展速度的人。同時，也需要有人來設計應該如何著手解決當前的問題，讓項目盡快啟動。

我們今天所從事的所有工作實質上都是在滿足需求。我們肯定會有自己視野上的局限。

所以我主張廣泛學習和多角度觀察，但我們也應有自己判斷的標準，選擇那些能夠持續生存下來的場景。

全天候科技：那你們怎么定位自己的目標客群呢？是機器人公司，還是場景應用方？

唐文斌：其實還是場景應用方。

坦白說，無論是國內還是國外的同行，大家所使用的模型都不太成熟。因此今天大家并沒有達到將模型直接部署到機器人公司的設備上，經過簡單訓練后就能使用的狀態。

我認為在模型尚未成熟的情況下，要實現場景落地應用，垂直整合是必要的。

如果我們自身都搞不定這個場景，卻期望合作伙伴和客戶能夠解決，這無疑是美好的幻想。我相信有朝一日，我們可能自己做了一些垂直的場景，而可能更多的場景可以通過開放平臺的方式，與我們的合作伙伴一起完成。他們既可以用我們的硬件，也可以只用我們的大腦，去自主探索更多可能性。

全天候科技：所以這是你們對模型開源的原因，就是希望更多人能加入進來？

唐文斌：開源有兩方面的考慮。首先我們希望更多人使用我們的框架和模型，這樣大家可以共同探索更多應用場景并推動技術的落地。其次，盡管當前行業熱度很高，但整體模型的成熟度仍處于初級階段，促進相互交流和進步至關重要。

全天候科技：你之前提到2026年的核心目標是每個場景部署1000臺可持續運轉的設備，能否分享一下這個目標完成的情況？

唐文斌：這可能要到下半年才能實現持續運行。目前我們還在進行POC測試。

我們對自有場景實現批量化的潛力還是很有信心的。

其實要讓機器人能夠持續運行，必須找到容錯環節。坦白說，當前模型驅動的方法還無法做到百分之百的準確率。

如果任務失敗怎么辦？這個問題必須有答案。我們需要探討通過什么種方式接管任務，讓失敗的任務能夠被恢復。同時我們還需評估這種失敗對企業的影響，判斷這種影響是否可接受。

在采取了兜底方案之后，我們還需要確認整個系統的ROI。

全天候科技：說到ROI的話，那客戶會直接提出說你們可以幫助產線節約多少錢嗎？

唐文斌：客戶通常會直接問我們能多久回本。

如果一個項目需要超過五年才能回本，那就不用做了。

如果預計兩到三年內就能回本，那就是立馬干。在當前的B2B環境中，我們大多數決策都是基于理性的分析，算清到底能為客戶提升多少效率。比如機器人能夠延長某些生產環節的運作時間，更高效地利用現有設備，為客戶帶來價值。

全天候科技：能否劇透后續的模型更新情況？

唐文斌：今年我們的核心議題將集中在泛化性上。

全天候科技：去年才創業來做具身智能的模型，你覺得會不會太晚了？

唐文斌：其實在很多年前我們就很想做一個通用機器人了，當時我們覺得技術上不成熟。但是隨著DeepSeek等大模型的發展后，確實讓我對這件事變得更有信心了。

全天候科技：如果讓你給2026年具身智能行業1個關鍵詞，你覺得會是什么？

唐文斌：我想給2個關鍵詞，一是模型能力的提升，二是場景的持續運行。

我認為當前的模型還處于早期階段，但發展速度很快，所以我們要努力提升模型的算法能力，包括在對象、環境適應性和任務泛化性上都有所提升，模型的泛化能力是至關重要的。其次，關于場景的應用，我認為單純的POC沒太大意義，它只是一個起點，重點在于如何在實際場景中持續運行，今年確實已經到時候了。

*本文為全天候科技原創作品，未經授權不得轉載，如需轉載，請在后臺回復“轉載”二字，獲取轉載格式要求。

點“在看”，變好看哦。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.