編輯|杜偉
今天上午,北京亦莊再度迎來了一場屬于機器人的「硬核大考」。
2026 人形機器人半程馬拉松比賽正式鳴槍開跑!
來自國內外數十家團隊的 300 余臺機器人同場競技,在城市主干道、GT 賽車級復雜路段等多樣地形中展開比拼,角逐出各個賽事的最終贏家。
在一眾高矮不同、形態各異的人形機器人中間,一只格外醒目的四足機器人進入了我們的視線。打聽后才知道,它是高德地圖首次亮相的機器人產品,名字叫做「高德途途」
![]()
與其他機器人在固定賽道比拼速度不同,高德途途是帶著一位視障少年參加的障礙賽,它不依賴預設路線,也不需要人工遙控,就可以在真實開放環境中自主判斷路線、獨立行動。看清眼前的路況還不夠,它還能結合全局信息感知到視野之外的變化,行進中更安全、可靠。
![]()
除了看得準、看得遠,高德途途的思考能力也遠非以往機械執行命令的同類型產品所能比。它會先理解意圖,再決定如何做,并在遇到復雜環境時根據實際情況決定繞行還是通過。
![]()
多項能力的加身讓高德途途開始真正融入現實生活,并憑借更強的自主辦事能力,在更多場景展現出實際價值。
以往不敢讓機器人替我們完成的事情,比如出門買咖啡、送快遞、甚至導盲帶路,現實可行性顯著提升。
![]()
尤其是在導盲場景,高德帶著自家四足機器人展開了一場極限條件的能力驗證。現實世界的復雜路況、突發干擾,以及路徑選擇和實時避險,每一步都對傳統導盲系統構成巨大的挑戰。
作為全球首款開放環境全自主具身機器人,高德途途經受住了一系列高強度考驗,在充滿不確定的環境中持續做出判斷并完成任務。
在揭秘它靠什么來扛住這個高難場景之前,我們有必須講清楚,開放環境下的導盲到底卡在哪些地方。
導盲這道分水嶺
為何遲遲沒被跨過去
說到導盲,大家腦海中可能會浮現出這樣的畫面:視障人士牽著一只傳統導盲犬或者智能導盲機器人,為他們帶路,抵達目的地。
然而,如果將導盲放到開放環境中,其實遠不止帶路這么簡單,而是多樣任務疊加在一起。
從任務尺度來看,導盲覆蓋跨層級的連續任務,近距離進行遞物、取物這類精細交互,中距離完成取件、配送等流程調度,遠距離則要保證在復雜街區導航甚至地鐵換乘中的安全。
這些需求本身已經在逼近一套系統能力的上限,要真正跑通,繞不開以下三個核心難點:
一是長尾不確定性。真實世界沒有標準場景,突發情況幾乎不可避免;二是安全要求極高,任何一次判斷失誤都可能給視障人士帶來危險;三是空間語義不完整,很多關鍵位置(如入口、通道)缺乏清晰、系統標注,需要系統自己理解判斷。
這也解釋了為什么過去的方案一直做不成。靠規則拼接,只能覆蓋一小部分情況,一旦環境變了就容易失效;只靠單一感知模型,即使看得見,也未必真的理解了,更別說及時做出適當的反應。
導盲真正難的不是識別本身,而在于準確判斷什么時候該避讓,什么時候跟隨,并在不斷變化的環境中把動作穩定連貫地做下去。邁過這一步,才算是真正從實驗室的演示,走到現實世界的可用。
從高德途途目前的表現來看,在導盲這樣的場景中,它已經展現出了一條可落地的解決路徑:能自己出門,能理解意圖,也能把事情做完。
這一切的實現遠非單個模型所能及,背后有一整套系統在支撐:從長期積累的空間智能數據,到導航與操作基座模型,再到負責統一調度與執行閉環的智能中樞,它們構成了高德 ABot 全棧體系
這是一個貫通數據、模型與 Agent 的三層架構,數據層依托 ABot-World 世界模型,模型層依托 ABot-N0 導航決策與 ABot-M0 精細操作,Agent 層依托 ABot-Claw 任務調度與閉環糾錯。
![]()
ABot 全棧技術架構圖
當落到導盲場景,則由 ABot-N0 提供開放環境下的導航能力底座,ABot-Claw 貫通意圖理解、記憶檢索、任務拆解、動態調度與閉環糾錯,它們共同支撐機器人完成長程、跨域連續任務;在需要具體物理操作時,ABot-M0 介入完成最后一步。
這套 ABot 全棧體系的加持,才讓高德途途有底氣向導盲代表的一類最典型真實世界問題發起挑戰:開放環境、長程任務、極高安全要求與極低容錯空間。
當這類問題有了解法,帶來的影響不再局限于導盲本身。像城市配送、巡檢、服務這些同樣需要在開放環境中長期運行的任務,也在同一條能力線上。導盲能跑通,這些場景離真正落地也更近了一步。
具身導航與操作
打造雙核心通用基座
將這兩年具身智能的發展拉長來看,我們會發現一個明顯的趨勢:模型能力在不斷變強,但系統層面的整合依然是個難題。
不同廠商、不同形態的具身機器人,大多仍在使用各自的動作表示和數據體系,導致彼此之間很難打通。數據復用受限,模型遷移成本高,換個新場景就得大量重新適配。這也是為什么不少系統能在單項任務上做到很高水平,但一旦放到同一個復雜場景中便容易掉鏈子,很難真正配合起來。
說到底,單個模塊的強弱已經不起決定性作用,更大的問題在于缺少一套將不同能力統一起來的基座模型,既能覆蓋不同任務,又能在不同場景與不同機器人形態之間用得起來。
正是在這樣的背景下,高德選擇推出 ABot 系列具身基座模型,包括導航基座模型 ABot-N0 和操作基座模型 ABot-M0,它們讓機器人走進開放環境并穩定運行有了現實可行性。
![]()
其中負責機器人「腿」的 ABot-N0 被打造成為業內最強導航基座模型,基于業內首個面向具身導航的流強化學習框架,讓機器人在城市級動態環境中持續決策,理解人流、規則等復雜因素,而不是只做靜態路徑規劃。
ABot-N0 的一大核心突破是將導航從「多任務拼接」重構為一個「統一模型」驅動的能力體系。簡單來說,原本分散在不同模型里的導航能力,現在可以在一個模型里解決。當這些能力不再與某一項任務或某一種機器人形態深度綁定時,它們具備了更強的遷移能力。同一套「導航大腦」可以在四足、輪式和人形等不同機器人上復用,具體的執行只需要根據結構進行適配即可。
現在,ABot-N0 可以一對多地處理五大類核心導航任務:按坐標走到指定位置(Point-Goal);在陌生環境找到目標物(Object-Goal);理解并執行復雜指令(Instruction-Following);跟隨行人在動態環境中移動(Person-Following);識別商場、店鋪等興趣點(POI-Goal)并導航至入口。
![]()
![]()
當然,這些能力不是簡單堆出來的,源于 ABot-N0 在架構上的取舍,它把思考和行動分層處理,并在同一套 VLA(視覺 - 語言 - 動作)框架下將理解、決策和執行銜接了起來。整個系統可以拆解為以下三層:
第一層是統一多模態編碼器,它負責將圖像、歷史觀測、文本指令、空間坐標全部映射到同一個語義空間。不同任務在進入模型之前就已經「說同一種語言」,后面的決策可以在同一個上下文里展開。
第二層是負責「想明白」的認知大腦。它基于預訓練的大語言模型,但沒有簡單沿用主流串行 CoT 的方式,而是做了一個更偏工程化的設計:把推理和動作拆成兩個分支,提出了任務條件式雙頭設計(Task-Conditional Dual-Head),需要理解場景、判斷規則時交給推理頭,需要快速執行動作時直接調用動作頭。并且,這兩部分不是一前一后的串聯關系,它們基于同一套內部理解協同工作:很多推理并不會被顯式輸出,但會直接影響后續動作決策。
最后一部分是動作專家,負責「把事情做出來」。它采用流匹配生成連續軌跡,一次給出一段平滑的運動路徑,比如 5 個路點(x, y, z, yaw)。這讓機器人在面對復雜環境時能夠走得更自然,也能在多種可行路徑之間靈活選擇。
![]()
ABot-N0 架構示意圖
ABot-N0 之所以能把導航能力做統一、做泛化,很大程度上依賴其構建的具身智能領域目前最大的數據引擎:包括 7802 個高保真 3D 場景、覆蓋五大導航任務的 1690 萬條專家軌跡以及覆蓋空間關系、社會規則和長程規劃的 500 萬條推理樣本。
這樣的數據規模是建立在高德長期積累的場景資產和空間能力之上:從真實世界的三維重建到場景理解再到生成式世界模型,這些能力讓大規模高保真訓練環境成為可能。
![]()
從結果來看,ABot-N0 這套方法在工程上完全跑得通,在一系列高難度基準上與現有方法拉開了明顯差距。并且這種領先不是集中在單一指標,橫跨了多個任務和場景。
在 7 項國際權威具身導航基準(CityWalker、SocNav、R2R-CE、RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench)上,ABot-N0 全部達到 SOTA,覆蓋從室內到室外、從靜態環境到人機混行的多任務范圍。
舉一個有代表性的場景,在 SocNav 閉環導航 中,ABot-N0 成功率達到 了 88.3%,相比此前最優方法提升超過 40 個百分點,同時合規性指標從 30% 區間飆升到 85% 以上。顯然,走通路徑已經不在話下,更開始在真實人類環境中學會如何避讓、如何通行。
![]()
可以說,ABot-N0 是在五大導航任務、七類基準、數十個強基線上全都強勢勝出。相關多個子研究成果也已被 CVPR 等頂級會議接收,工程效果和學術價值都得到了驗證。
其中最具代表性的,高德聯合浙大提出的社會化導航基座模型 SocialNav,在具身導航領域首次引入基于流的強化學習框架,并以 6/6/5 接近滿分的成績入選 CVPR Oral。這項工作通過分層設計和多階段訓練,讓機器人在復雜人類環境中不只「走得到」,還會遵循交通規則和社會規范,真正把導航從單純的路徑規劃推進到更接近現實世界的社會化決策。論文地址:https://github.com/AMAP-EAI/SocialNav
![]()
ABot-N0 解決了「往哪走」的問題,ABot-M0 負責「把操作動作落實下去。」但要把這一步做好,繞不開一個問題:機器人是不是一定要依賴一套封閉的數據體系才能把動作做對。
過去大多數系統都走了這條路,不同機器人、不同任務各自采集數據、各自訓練模型,彼此之間幾乎不通,動作表達也不一致。結果就是,在一個場景里表現不錯,一換環境就失效,很難形成真正能遷移的能力。
ABot-M0 走的是另一條路:沒有圍繞某一類機器人或某一類任務單獨建模,從一開始就用一套統一的動作表示,把來自不同來源、不同形態的數據放到同一個體系里
圍繞這個思路,ABot-M0 在數據、表示和訓練方式上都做了調整:聚合全球范圍內的異構開源數據,對齊不同機器人之間的動作表示,讓原本割裂的數據能夠在同一套邏輯下被模型學習,最終形成了一個可以跨任務、跨本體遷移的操作模型。
首先在數據層面,ABot-M0 把來自不同機器人與任務的大規模數據統一起來,構建目前最大的開源異構數據集 UniACT,時長超過 9500 小時、軌跡達 600 多萬條、具身形態超過 20 種。
并且,構建這一數據集的過程本身就是在做標準化,不同來源的數據在動作表示和機器人結構上被統一起來, 其中使用末端執行器(EEF)的增量動作來描述操作,采用補零到雙臂(Pad-to-Dual-Arm)策略對單雙臂做一致建模。這樣一來,數據更多的同時,不同來源的數據第一次實現對齊,讓跨任務、跨本體的泛化能力有了現實基礎。
![]()
接下來,ABot-M0 在表示和訓練方式上做了關鍵調整:不讓模型先學去噪再慢慢還原動作,直接去學「什么樣的動作本身就可行」。原因也不復雜,真實世界可行的動作不是到處都有,它們往往集中在一小塊受物理規律和任務約束限制的有效區域里。與其在整個空間里找答案,不如一開始就把學習范圍限定在這塊有效區域內。
基于此,ABot-M0 用動作流形學習(AML)替代了傳統的擴散式生成方式:放棄像過去那樣從噪聲一步步還原動作,以 DiT 為骨干網絡直接預測一段連續、可執行的軌跡。帶來的變化也很直觀,推理步驟更少,動作更連貫,在復雜場景下更穩定。即便大幅壓縮推理過程,模型依然能保持性能,而傳統方法往往會明顯下降。
![]()
最后,ABot-M0 進一步加強了空間感知能力。光靠 VLM 理解畫面里有什么還不夠,真正難的是判斷「它們之間是什么關系」,比如前后遠近、遮擋、角度,這些都會直接影響動作能不能做對。
ABot-M0 沒有去改動原有的 VLM 主干網絡,而是多加了一路專門處理空間信息的感知模塊(如 VGGT、Qwen-Image-Edit):用語義模型理解任務意圖,用 3D 信息判斷物體的位置關系和操作角度,兩條路徑在內部一起參與決策。有了這層空間信息,機器人對視角變化和環境擾動的適應能力更強。
![]()
ABot-M0 架構圖
ABot-M0 在操作側的表現同樣不是個別任務上領先,在 Libero、Libero-Plus、RoboCasa 等一系列難度較高的操作評測中均達到 SOTA 水平。
其中最有代表性的是 Libero-Plus,它是一類強調跨任務與泛化能力的基準。ABot-M0 的任務成功率達到了 80.5%,相比此前的標桿方案提升近 30 個百分點。這說明了模型在面對未見過的組合任務時依然能夠穩定完成操作。
![]()
把 ABot-N0 和 ABot-M0 放在一起看,一個變化正在發生:具身智能開始圍繞模型搭體系。導航側通過統一模型打破任務邊界,操作側通過統一數據打破本體差異,并且數據、表示和訓練方式的變化也在不斷降低能力遷移的成本。久而久之,具身智能逐漸逼近通用系統的形態。
兩大基座模型更多細節請移步項目主頁與技術報告:
ABot-N0:
- 論文地址:https://arxiv.org/pdf/2602.11598
- 項目主頁:https://amap-cvlab.github.io/ABot-Navigation/ABot-N0/
ABot-M0:
- 論文地址:https://arxiv.org/abs/2602.11236
- 項目主頁:https://amap-cvlab.github.io/ABot-Manipulation/
從喂數據到邊用邊學
跑通一套閉環系統
ABot-N0 和 ABot-M0 把機器人「往哪走」和「怎么做」兩件事弄清楚了,接下來面臨兩個更現實的問題:這些能力從哪來,又怎么在真實環境里穩定跑起來,它們很大程度上決定了具身系統的上限。這正是 ABot 全棧體系中數據層和 Agent 層要解決的核心痛點。
其中數據層的 ABot-World 想要解決的是一個更底層的問題:機器人是否見過足夠多足夠真實的世界。機器人難以泛化的很大原因便在于數據少、獲取慢、也永遠覆蓋不完真實世界的長尾情況。
![]()
ABot-World 雙引擎驅動架構:ABot-3DGS(數字孿生工廠)× ABot-PhysWorld(物理引擎內核)
ABot-World 的思路是,依托自有地圖與脫敏數據,結合 3DGS 技術實現厘米級重建與光照一致性。模型已累計生產萬級 3D 真實場景、百萬級推理數據與千萬級訓練軌跡,覆蓋 99% 的典型生活場景。通過模擬各種復雜情況,讓模型提前見到足夠多的場景。這件事能成立正好踩在了高德的強項上。高德一直在做的就是把真實世界一點點搬進地圖里。基于此,高德有能力把整個環境還原出來,用來訓練機器人。
在 WorldScore、WorldArena、AGIbot、PBench、EZSBench 等權威評測榜單上,ABot-World 都拿過 SOTA,甚至在一些指標上力壓了英偉達 Cosmos、谷歌 Veo 和 OpenAI Sora 2 等多個開閉源方案。
ABot-World 系列也發布了首個子工作ABot-PhysWorld,它將關注重點放在了「這些世界是不是真的能在現實中成立」上,不像大多數現有模型追求畫面合理,更關心生成過程在物理上是否說得通。
![]()
同時,現實世界的任務往往不是單一指令,要復雜得多:理解意圖、拆分步驟、找位置、做動作,還要隨時應對突發情況。Agent 層的 ABot-Claw 要做的就是將涉及到的這些能力統一調度起來,真正組織成一個可以端到端完成任務的系統
![]()
ABot-Claw系統架構圖
ABot-Claw 構建了一套 Vision-Spatial 雙中心的跨具身共享記憶系統,通過四層結構完成空間與語義的統一:圖像語義層負責看到的內容、幾何地圖層負責空間結構、物體中心拓撲層負責物體之間的關系、地點錨定層負責語義和位置的對應。
這套結構解決了幾何地圖「能帶你走過去,但不知道那是什么」、語言模型「知道是什么,但不知道怎么走過去」的兩難問題。ABot-Claw 直接將兩套系統融合到同一記憶體系中,并且記憶是跨具身共享的。新設備接入后,直接繼承已有認知。過去的成功和失敗會也被記錄下來,隨時被調出來用。每一次任務執行都成為了一個可以不斷積累經驗的過程,讓機器人從「一機一圖」走向「共享一套世界記憶」。
有了調度和記憶,還缺最后一塊拼圖,即如何在不確定世界中持續完成任務。ABot-Claw 對此的解法是:引入一套 Closed-loop Reflection & Self-Correction(閉環反思與自我糾錯)機制
這其實很接近人類的做事方式,邊做邊修正。整個過程不是簡單的下指令 - 執行,開始變成一個持續的循環:先試一下、看結果、調整、再試。具體體現為三級自適應決策閉環,依次是執行、評估與進化。由此,機器人的角色也從一個執行工具逐漸轉變為會自己決策的系統。
像「找一瓶可樂」這樣的任務,如果第一次沒找到,它會自己換個地方再試,而不是直接放棄。這種做法才是應對真實世界不確定性的關鍵。
當「學」和「用」連成一個循環,系統開始具備持續進化的能力。這或許是具身智能走向長期可用的分水嶺。
結語
具身機器人發展到現在,業界逐漸達成了一種共識:單一任務的突破已不足以應對日益復雜的應用需求。機器人要在固定環境中穩定執行任務,也必須適應多變的環境。
高德 ABot 全棧體系不僅成功支撐高德途途在開放環境中完成導盲任務,還為行業提供了一個值得借鑒的范本:
通過數據層、模型層和 Agent 層的緊密結合,ABot 將感知、決策、執行這些能力高效整合在一起,不像傳統上那樣單個模塊各自為政。
這樣既能提升任務執行效率,也讓機器人在身處復雜、動態的現實世界時更加游刃有余。
此次,高德不僅僅是在某個特定場景取得突破,也開啟了具身智能從實驗室走向真實世界的一個標志性節點。未來的機器人,更加可期。
文中視頻鏈接:https://mp.weixin.qq.com/s/lfjpZ7KDzNS41WCiCJjMUg
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.