網易首頁 > 網易號 > 正文申請入駐

2700GB高質量數據，訓出空間智能SOTA，背后秘訣全棧開源

2026-03-31 13:50:31　來源: 量子位

河南舉報

分享至

一凡發自凹非寺
量子位 | 公眾號 QbitAI

什么在限制空間智能落地？

從自動駕駛到具身智能，行業對此的共識是：數據

因為數據不夠，模型泛化能力就弱，只能靠硬件來湊。

這在機器人身上體現得尤為明顯。機器人要感知空間，常用的硬件是RGB-D相機，它既能看懂RGB圖像，又能感知深度，從而獲取到三維立體信息，讓機器人理解物理世界。

但問題是，機器人的這雙眼并不靠譜，遇到鏡子、電梯、玻璃門等透明物體或者反光表面，RGB-D相機就容易失效，導致機器人感知異常。

這些場景繞不開，躲不掉，都是機器人走進千家萬戶，一定會碰到的問題，必須要解決。但因為缺少數據底座，行業過去的解決方式一般是靠堆硬件，補短板，強化感知能力。

這種局面即將迎來改變。因為就在剛剛，具身智能的基建玩家出手，對癥下藥，推出了一個開源數據基座。基于這個基座訓練的模型，都已經實現SOTA了。

空間智能卡在哪兒了？

空間智能給了機器人一雙眼睛和小腦，機器人靠它才能實現感知、規劃、導航和精細操作。

比如說機器人需要拿起面前的杯子，它不光要看懂這是杯子，還需要知道杯子離自己有多遠、邊界在哪兒。

問題是，實現空間智能并不容易，需要依靠大規模、高質量的數據。互聯網上已有的海量RGB圖像，規模確實大但不符合要求，因為它只能“喂”給AI二維信息，AI很難從中生長出三維空間的理解能力。

所以行業這些年一直在給AI補空間理解這門課，路線也不少，有RGB-D相機、激光雷達和3D重建等方法。

其中RGB-D相機路線一直都很受歡迎，因為它就像給AI開了“第三只眼”，不光能測長和寬，還能測量距離，而且不需要復雜后處理，可以實時感知環境。

但RGB-D路線也有不足，主要有兩個問題。首先第一個問題是，采集任務本身比較困難，不是說簡單地舉個相機，找個機位，“咔嚓”一拍就完事兒。不僅需要檢查左右圖像一致性，還要對RGB圖像和深度信息進行時空同步，以及處理不同硬件之間的差異。

這還不算完，獲取到RGB-D數據后，第二個問題接著就來了，研究者會發現其實RGB-D相機有時候很不靠譜，碰到玻璃、鏡面、金屬反光材質和白墻這種低紋理表面就容易失效。

還是以機器人拿杯子為例，咱們日常生活看到的杯子一般都長這樣：

而在RGB-D相機的深度傳感器下，杯子be like醬嬸兒：

在機器人的視角里，兩個杯子直接連成了一塊，根本難以分辨，也自然無法準確拿取。RGB-D相機的不穩定，進一步導致了高質量RGB-D數據的缺失。

螞蟻靈波開源空間智能數據基建

為了緩解行業的數據痛點，螞蟻靈波最近開源了LingBot-Depth-Dataset數據集，其總體規模達到2.71TB，包含300萬對標注RGB-D數據，每一對樣本都包含一張RGB圖像、傳感器原始深度圖和真值深度圖

其中大部分都是真實數據，大約有200萬對，140萬對是由多臺RGB-D相機采集自真實室內場景的數據RobbyReal（如下圖所示），以及58萬對由機器人在VLA任務中采集的數據RobbyVla

這些真實數據的來源非常廣泛，包括住宅、教室、博物館、商店、醫院、健身房和電梯等各種生活場景，數據來源豐富，作為訓練底座時就能增強模型的泛化性。

此外還有約100萬對由雙相機視角渲染生成的合成數據RobbySim

其余部分都是RobbySimVal，含有3.8萬條數據，作為仿真數據的驗證集。這種虛實融合采集數據的方式，既能覆蓋一些邊緣場景，也能降低數據采集成本。

規模大、場景豐富，只是數據集可以被行業廣泛使用的必要條件，但還不是全部。

LingBot-Depth-Dataset還有一個值得關注的地方在于數據分布的多樣性，它在構建時使用Orbbec 335、335L，RealSense D405、D415、D435、D455這6款主流深度相機進行采集，不同相機在成像特性、噪聲模式、深度精度上各有差異，使得數據集天然覆蓋了多種傳感器分布，為下游研究和模型訓練提供了更豐富的數據基礎。

這意味著這座數據金礦，可以被更多研發團隊挖掘，成為空間智能的數據基建。

打造具身智能的“大腦平臺”

螞蟻靈波開源的這套數據基建，緩解了開源社區缺乏真實場景拍攝數據的問題，不僅量大管飽，而且戰績可查

今年年初，螞蟻靈波發布了LingBot-Depth模型，LingBot-Depth主要基于LingBot-Depth-Dataset數據集訓練，在多項權威深度補全基準測試如iBims、NYUv2和DIODE上實現了SOTA

而當LingBot-Depth部署到真實環境后，可以驅動機器人穩健抓取透明和反光物體，這在以往可以說是天方夜譚的事情。

隨后，螞蟻靈波又緊接著開源了LingBot-VLA，打通視覺、語言和動作，驅動機器人做出決策。

緊隨其后開源的LingBot-World，則為模型提供了仿真訓練場。

當時壓軸登場的LingBot-VA，則率先讓世界模型直接驅動機器人動作，實現了“邊推演，邊執行”，引領了具身研究的趨勢。

從感知到決策，從模型到數據，螞蟻靈波正在打造具身智能的“大腦平臺”。其最新開源成果，也啟發著行業思維轉向。

物理AI數據先行

追根溯源來看，這種通過軟件方法加強感知能力，而不是一味堆傳感器的思想，體現了計算機科學中的軟件硬件等效原理

那軟件和硬件手段應該如何取舍？與具身智能同屬物理AI的自動駕駛行業，已在該問題上形成了共識，值得參考借鑒：

首先最值得重視的是數據和算法架構。前者是AI迭代的基石，后者是指將多個算法整合形成合力，并長期積累的能力。

其次才是堆更多數量和價格更高的傳感器。自動駕駛從業者普遍認為，隨著數據越來越多，再加上算法架構持續升級，模型的空間感知能力會越來越強，這時再堆傳感器，雖然有用，但是提升的效果會越來越弱。

正是有了這樣的共識，行業才打下了硬件成本，為自動駕駛商業化繁榮奠定了基礎。

自動駕駛的實踐已經證明，物理AI落地，優先考慮軟件手段，這并不會削弱空間智能，還可以推動商業化。這同樣也是螞蟻靈波開源一系列模型和數據集，給具身智能行業帶來的啟發：

加強空間智能，數據算法優先，不必追逐昂貴硬件。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.