近日,復旦大學、上海創智學院付彥偉教授團隊為機器人打造了一種薛定諤的導航器,名字取自量子力學里那只既死又活的貓。
![]()
圖 | 付彥偉(來源:資料圖)
研究中,他們把機器人在辦公室、教室、休息室里的導航過程拍成了視頻。
視頻里,機器人猶豫幾秒之后果斷繞過一張桌子,后面露出一只玩具貓,它沒看見貓,但猜到了貓在那。這個動作人類做起來很自然,但是機器做起來卻需要一整套想象的能力。
他們讓機器人在行動前,先想象出幾種可能的未來場景,每種場景對應一條不同的路線。想象里藏著目標,就走那條路;想象里藏著危險,就避開它。
這套系統在真實的四足機器人 Go2 上進行了測試,在找靜態物體、追動態物體、躲避突發障礙三個場景里,成功率都遠超現有最強方案。
付彥偉告訴 DeepTech:“有了這套框架,人形機器人或者四足狗就可以在一個全新的環境里直接導航,比如讓它去抓住一只移動的貓,或者去拿一個會動的玩偶。這些以前很難做到的事,以后可能就變得很容易了。”
![]()
(來源:https://arxiv.org/pdf/2512.21201)
研究中,付彥偉等人首次使用想象的方式來導航,這在以前幾乎沒人做過。以前的方法處理不了動態物體或者嚴重遮擋的場景,而他們給出了一個全新的框架。
他們還首次在真實四足機器人上驗證了這套系統,在找動態物體和應對突發障礙這兩個場景里,效果明顯比現有方法好。
![]()
(來源:https://arxiv.org/pdf/2512.21201)
看不見的地方,靠想象填滿
這一方案想解決的問題是:假如你走進一個房間,目標是一只貓。你面前有張桌子,貓可能在后面,也可能不在。你該往左繞還是往右繞?如果桌后藏著危險的障礙物怎么辦?如果貓正在移動呢?
普通機器人會怎么做?它只能看到眼前的東西,被桌子擋住的部分,它完全看不見。它要么隨機選一邊,要么花很長時間先把桌子周圍探一遍,不僅效率低,還容易出錯。
普通導航系統的弱點在于,它們只處理眼前能看見的信息。但真實世界里,大量信息藏在障礙物后面。機器人只能看見桌子的正面,看不見桌后是否有貓。
薛定諤的導航器用一個軌跡條件 3D 世界模型來解決這個問題。每次決策前,機器人先用一個程序生成三條候選路線:從左繞、從右繞、從上繞。
然后它把當前看到的畫面和這三條路線一起喂給一個叫 FlashWorld 的模型。這個模型能在幾秒內生成每條路線對應的未來 3D 場景,所使用的是 3D 高斯潑濺技術,也就是用大量小圓點堆出立體畫面。
所生成的未來場景要跟真實世界對齊。具體來說,機器人用深度相機測出當前畫面里每個點的真實距離,再和生成場景里的距離對比,算出縮放比例,把想象出的場景縮放到真實尺寸。
然后,它把想象出的場景里的物體貼上語義標簽,比如哪些點是貓、哪些點是桌子。而這些想象出來的信息會被融合進一個未來感知價值地圖里。
![]()
(來源:https://arxiv.org/pdf/2512.21201)
在 Go2 四足機器上驗證:找得最準最重要
研究中,付彥偉等人在真實的 Go2 四足機器人上做了三組實驗。
第一組是找靜態物體,比如辦公室里的椅子、教室里的綠植、休息室里的垃圾桶。每條路線重復五次,結果顯示,薛定諤的導航器成功 23 次,對比方法成功 22 次,兩者差不多。
第二組是找動態物體。目標物在場景里移動,機器人必須實時追蹤。結果顯示,薛定諤的導航器成功 16 次,對比方法只有 10 次。差距開始顯現。
第三組是突發障礙。機器人正沿著一條路走,突然一個物體出現在路中間擋住去路。結果顯示,薛定諤的導航器成功 19 次,對比方法只有 12 次。這個結果很關鍵,因為它證明系統不僅能想象靜態場景,還能實時應對環境變化。
在模擬環境里的測試更全面。HM3D 數據集包含 36 個室內場景,1,000 個導航任務,六類目標物體。薛定諤的導航器在到目標距離指標上排第一,意味著它最終停下的位置離目標最近。而這恰恰是這套方法的設計目標:跑得最快是其次,找得最準最重要。
薛定諤的導航器最巧妙的地方在于,它把想象和決策連在了一起。而對比方法用的是同樣的底層硬件和語言模型,區別只在于決策邏輯。
對比方法只看到了當前畫面,想象不到桌后面的事。薛定諤的導航器多了一步:在行動前先想象。這一步聽起來簡單,但在機器人身上實現很復雜。
因為要讓生成的 3D 場景和真實世界對齊,就要給每個小圓點貼上正確的語義標簽,要保證計算速度夠快不耽誤實時決策。
![]()
(來源:https://arxiv.org/pdf/2512.21201)
“讓他們去挖一個新坑,他們一開始是猶豫的”
這套方法的應用范圍很廣。比如,家用機器人找遙控器、掃地機器人繞開突然出現的拖鞋、搜救機器人在廢墟里尋找幸存者,都需要在看不見的地方做推理。
付彥偉告訴 DeepTech:“研究期間我花了兩三周時間,努力讓學生的研究思路轉變過來。我們中國的學生都很踏實,做事認真,但比較小心謹慎。你突然提出一個全新的東西,讓他們去挖一個新坑,他們一開始是猶豫的。”
他繼續說道:“我花了很大力氣去說服他們,讓他們理解:不能只是跟著別人的經典框架走,要自己去創造一個新框架。這種跨越,其實對博士生來說挺難的。但現在論文做完了,學生自己也覺得這種經歷很寶貴,他們現在的研究思路也比以前更開闊了。”
![]()
(來源:https://arxiv.org/pdf/2512.21201)
目前系統只生成了三條固定路線(左、右、上),未來可以增加更多樣化的路徑。談及后續計劃他表示:“后續計劃有不少。其中一個方向是多機器人共享同一個 3D 世界。”
如果有好幾臺異構的機器人,它們可以共享同一個想象空間,通過這個空間去規劃每個機器人的路線。“那樣的話,機器人在導航這件事上可能比人還厲害,因為我們可以很容易地構造很多機器人,讓它們協同工作。”他說。
關于本次導航器的落地,他們可能會找企業合作,也可能做成開源工具包,讓各種機器人平臺都能調用。目前已經在和一些公司接觸。
參考資料:
相關論文:https://arxiv.org/pdf/2512.21201
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.