一凡 發自 凹非寺
量子位 | 公眾號 QbitAI
什么在限制空間智能落地?
從自動駕駛到具身智能,行業對此的共識是:數據
因為數據不夠,模型泛化能力就弱,只能靠硬件來湊。
這在機器人身上體現得尤為明顯。機器人要感知空間,常用的硬件是RGB-D相機,它既能看懂RGB圖像,又能感知深度,從而獲取到三維立體信息,讓機器人理解物理世界。
但問題是,機器人的這雙眼并不靠譜,遇到鏡子、電梯、玻璃門等透明物體或者反光表面,RGB-D相機就容易失效,導致機器人感知異常。
這些場景繞不開,躲不掉,都是機器人走進千家萬戶,一定會碰到的問題,必須要解決。但因為缺少數據底座,行業過去的解決方式一般是靠堆硬件,補短板,強化感知能力。
這種局面即將迎來改變。因為就在剛剛,具身智能的基建玩家出手,對癥下藥,推出了一個開源數據基座。基于這個基座訓練的模型,都已經實現SOTA了。
空間智能卡在哪兒了?
空間智能給了機器人一雙眼睛和小腦,機器人靠它才能實現感知、規劃、導航和精細操作。
比如說機器人需要拿起面前的杯子,它不光要看懂這是杯子,還需要知道杯子離自己有多遠、邊界在哪兒。
問題是,實現空間智能并不容易,需要依靠大規模、高質量的數據。互聯網上已有的海量RGB圖像,規模確實大但不符合要求,因為它只能“喂”給AI二維信息,AI很難從中生長出三維空間的理解能力。
所以行業這些年一直在給AI補空間理解這門課,路線也不少,有RGB-D相機、激光雷達和3D重建等方法。
其中RGB-D相機路線一直都很受歡迎,因為它就像給AI開了“第三只眼”,不光能測長和寬,還能測量距離,而且不需要復雜后處理,可以實時感知環境。
但RGB-D路線也有不足,主要有兩個問題。首先第一個問題是,采集任務本身比較困難,不是說簡單地舉個相機,找個機位,“咔嚓”一拍就完事兒。不僅需要檢查左右圖像一致性,還要對RGB圖像和深度信息進行時空同步,以及處理不同硬件之間的差異。
這還不算完,獲取到RGB-D數據后,第二個問題接著就來了,研究者會發現其實RGB-D相機有時候很不靠譜,碰到玻璃、鏡面、金屬反光材質和白墻這種低紋理表面就容易失效。
還是以機器人拿杯子為例,咱們日常生活看到的杯子一般都長這樣:
![]()
而在RGB-D相機的深度傳感器下,杯子be like醬嬸兒:
![]()
在機器人的視角里,兩個杯子直接連成了一塊,根本難以分辨,也自然無法準確拿取。RGB-D相機的不穩定,進一步導致了高質量RGB-D數據的缺失。
螞蟻靈波開源空間智能數據基建
為了緩解行業的數據痛點,螞蟻靈波最近開源了LingBot-Depth-Dataset數據集,其總體規模達到2.71TB,包含300萬對標注RGB-D數據,每一對樣本都包含一張RGB圖像、傳感器原始深度圖和真值深度圖
其中大部分都是真實數據,大約有200萬對,140萬對是由多臺RGB-D相機采集自真實室內場景的數據RobbyReal(如下圖所示),以及58萬對由機器人在VLA任務中采集的數據RobbyVla
![]()
這些真實數據的來源非常廣泛,包括住宅、教室、博物館、商店、醫院、健身房和電梯等各種生活場景,數據來源豐富,作為訓練底座時就能增強模型的泛化性。
此外還有約100萬對由雙相機視角渲染生成的合成數據RobbySim
![]()
其余部分都是RobbySimVal,含有3.8萬條數據,作為仿真數據的驗證集。這種虛實融合采集數據的方式,既能覆蓋一些邊緣場景,也能降低數據采集成本。
![]()
規模大、場景豐富,只是數據集可以被行業廣泛使用的必要條件,但還不是全部。
LingBot-Depth-Dataset還有一個值得關注的地方在于數據分布的多樣性,它在構建時使用Orbbec 335、335L,RealSense D405、D415、D435、D455這6款主流深度相機進行采集,不同相機在成像特性、噪聲模式、深度精度上各有差異,使得數據集天然覆蓋了多種傳感器分布,為下游研究和模型訓練提供了更豐富的數據基礎。
這意味著這座數據金礦,可以被更多研發團隊挖掘,成為空間智能的數據基建。
打造具身智能的“大腦平臺”
螞蟻靈波開源的這套數據基建,緩解了開源社區缺乏真實場景拍攝數據的問題,不僅量大管飽,而且戰績可查
今年年初,螞蟻靈波發布了LingBot-Depth模型,LingBot-Depth主要基于LingBot-Depth-Dataset數據集訓練,在多項權威深度補全基準測試如iBims、NYUv2和DIODE上實現了SOTA
![]()
而當LingBot-Depth部署到真實環境后,可以驅動機器人穩健抓取透明和反光物體,這在以往可以說是天方夜譚的事情。
![]()
隨后,螞蟻靈波又緊接著開源了LingBot-VLA,打通視覺、語言和動作,驅動機器人做出決策。
緊隨其后開源的LingBot-World,則為模型提供了仿真訓練場。
當時壓軸登場的LingBot-VA,則率先讓世界模型直接驅動機器人動作,實現了“邊推演,邊執行”,引領了具身研究的趨勢。
![]()
從感知到決策,從模型到數據,螞蟻靈波正在打造具身智能的“大腦平臺”。其最新開源成果,也啟發著行業思維轉向。
物理AI數據先行
追根溯源來看,這種通過軟件方法加強感知能力,而不是一味堆傳感器的思想,體現了計算機科學中的軟件硬件等效原理
那軟件和硬件手段應該如何取舍?與具身智能同屬物理AI的自動駕駛行業,已在該問題上形成了共識,值得參考借鑒:
首先最值得重視的是數據和算法架構。前者是AI迭代的基石,后者是指將多個算法整合形成合力,并長期積累的能力。
其次才是堆更多數量和價格更高的傳感器。自動駕駛從業者普遍認為,隨著數據越來越多,再加上算法架構持續升級,模型的空間感知能力會越來越強,這時再堆傳感器,雖然有用,但是提升的效果會越來越弱。
正是有了這樣的共識,行業才打下了硬件成本,為自動駕駛商業化繁榮奠定了基礎。
自動駕駛的實踐已經證明,物理AI落地,優先考慮軟件手段,這并不會削弱空間智能,還可以推動商業化。這同樣也是螞蟻靈波開源一系列模型和數據集,給具身智能行業帶來的啟發:
加強空間智能,數據算法優先,不必追逐昂貴硬件。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.