讓無人機學(xué)會自己認路+鎖位目標，國防科大給出一套新解法

2026-04-13 15:34:42　來源: 機器之心Pro

河北舉報

分享至

在復(fù)雜、甚至是 GNSS（全球?qū)Ш叫l(wèi)星系統(tǒng)）拒止的環(huán)境中，如何讓僅搭載單目相機的無人機實現(xiàn)精準、無漂移的自我與目標定位？

國防科技大學(xué)虛擬現(xiàn)實與視覺計算團隊（SAW Lab）聯(lián)合多所高校推出無人機實時地理定位系統(tǒng)「PiLoT」，首次實現(xiàn)僅依靠單目 RGB 序列即可在 GNSS 拒止環(huán)境下完成無人機 6-DoF 位姿及任意目標的實時、無漂移地理定位。PiLoT 在嵌入式平臺（如 NVIDIA Jetson Orin）上即可達到 25 FPS 的高性能，在復(fù)雜真實場景下的定位精度與魯棒性均達到當(dāng)前最先進水平，成功解決了大規(guī)模場景下跨視角匹配與零樣本泛化的難題。該研究成果被 CVPR 2026 接收為 Highlight 論文。

PiLoT 在10km飛行軌跡中的實時無漂移表現(xiàn)。畫面主視圖展示了無人機在基于實景三維模型構(gòu)建的數(shù)字孿生場景中的飛行軌跡，PiLoT系統(tǒng)解算的實時軌跡（ES_TRACK，綠色光帶）與RTK記錄的真值航跡（GT_TRACK，粉色光帶）高度重合，直觀呈現(xiàn)了系統(tǒng)在復(fù)雜地理環(huán)境下的航跡定位效果。左下角小窗口“Query view”為無人機捕獲的實時視頻流，“Render view”則是系統(tǒng)根據(jù)當(dāng)前位姿估計值從三維地圖中同步渲染生成的地理參考視圖，記錄了從傍晚到入夜的劇烈光照變化過程。在長達13分鐘、航程超過10公里的飛行測試中，PiLoT維持了1.374米的均值定位誤差，并保持25~30 FPS的實時推理速度。

論文標題：PiLoT: Neural Pixel-to-3D Registration for UAV-based Ego and Target Geo-localization
收錄會議：CVPR 2026 Highlight
所屬機構(gòu)：國防科技大學(xué)，浙江大學(xué)，西湖大學(xué)，杭州電子科技大學(xué)
論文鏈接：https://arxiv.org/abs/2603.20778
項目主頁：https://nudt-sawlab.github.io/PiLoT/

研究動機：無人機定位如何擺脫 GNSS 依賴？

怎樣的無人機地理定位系統(tǒng)才算理想？通常而言，它至少需要滿足三個核心標準：

全局高精度（Drift-free）：能夠有效克服傳統(tǒng)里程計在長距離、大范圍飛行中的累積誤差，實現(xiàn)無漂移的一致與精準；
全天時高魯棒（Long-term）：面對跨時段的光照劇變，以及劇烈機動帶來的運動模糊與大視角變化，系統(tǒng)依然能穩(wěn)定追蹤不崩潰；
低算力與載荷門檻（Real-time）：滿足嚴苛的 SWaP（體積 / 重量 / 功耗）限制，無需掛載重型傳感器，在受限的邊緣平臺（如 Jetson）實時運行。

當(dāng)前的無人機地理定位技術(shù)，無論是用于自主導(dǎo)航還是對地目標偵察，大多遵循一套約定俗成的系統(tǒng)架構(gòu)：先依靠視覺里程計（VIO）和衛(wèi)星信號（GNSS）算好自身位置，再掛載一臺激光測距儀去反推地面目標的坐標。這種架構(gòu)存在兩個弱點：前者高度依賴外部信號，后者則極度依賴重型主動載荷。

直覺告訴我們，這或許并非最佳解法：既然無人機搭載了視覺傳感器，如果我們擁有一張已知的三維地圖，它能否像人類一樣，直接實現(xiàn) “看圖認路”？可否擺脫對 GNSS 的依賴，實現(xiàn)真正無漂移的無人機視頻定位？為了回答這一問題，國防科技大學(xué) SAW Lab 團隊將目光投向了像素級的 3D 配準，試圖從純視覺視角尋找答案。

核心洞察與解決方案：PiLoT

回看傳統(tǒng)的 VIO 系統(tǒng)，它主要通過比較前后兩幀圖像來計算相對位移。這類似于航位推算，飛行距離越遠，微小的測量誤差累積得就越多。

研究團隊的思路是弱化相對觀測，直接建立絕對錨點。通過將每幀 2D 視頻像素直接映射到帶有絕對坐標的 3D 地理模型上，切斷誤差的累加路徑。這引出了 PiLoT 框架的核心理念：將無人機自定位與目標定位統(tǒng)一重構(gòu)為像素到 3D 的配準問題。只要將實時畫面與三維世界精準對齊，相機的六自由度位姿以及目標的真實地理坐標便能作為聯(lián)合解自然得出。

理論表明，通過實時畫面匹配 3D 地圖可以獲得無漂移的絕對坐標。但要讓這一框架真正滿足低算力門檻與全天時魯棒性，在方法設(shè)計上還面臨兩個核心的技術(shù)挑戰(zhàn)：

第一，算力如何高效分配？建立 2D 像素到 3D 大規(guī)模場景的密集對應(yīng)關(guān)系，意味著地圖渲染與特征匹配將消耗巨大的計算資源。若采用 “渲染一幀、定位一幀” 的串行處理模式，輕量級機載平臺顯然無法滿足無人機的實時控制需求。如何設(shè)計高效的計算流分配與異步調(diào)度機制，是該框架必須跨越的計算瓶頸；

第二是深度網(wǎng)絡(luò)如何學(xué)習(xí)幾何本質(zhì)？當(dāng)前主流的視覺匹配模型多基于地面或室內(nèi)數(shù)據(jù)集訓(xùn)練。然而，真實的無人機作業(yè)環(huán)境極其復(fù)雜，不僅存在高空俯視的視角與尺度劇變，還伴隨著跨時段的光照與天氣干擾。這種從地面到復(fù)雜高空的跨度，產(chǎn)生了巨大的域鴻溝（Domain Gap）。面對這種差異，現(xiàn)有模型極易暴露紋理偏置的軟肋，它們傾向于過擬合地面訓(xùn)練集中特定的表觀紋理，一旦遭遇無人機視角的切換與環(huán)境外觀的改變，原先依賴的特征就會失效，導(dǎo)致定位魯棒性大幅下降。因此，如何克服這種偏置，獲取一個無懼真實環(huán)境干擾的無人機專屬特征提取器，便是跨越域鴻溝的關(guān)鍵。

從基于 3D 配準的理論重構(gòu)，到跨越算力與域鴻溝的雙重危機，PiLoT 框架給出了一套優(yōu)雅的解法。具體而言，其系統(tǒng)架構(gòu)與方法設(shè)計包含以下三大核心創(chuàng)新：

1. 渲染 - 定位雙線程解耦：突破線性時序瓶頸

為了打破線性時序瓶頸，PiLoT 摒棄了逐幀渲染、逐幀定位的低效串行模式。研究團隊通過將渲染與定位解耦，構(gòu)建了兩個高并發(fā)的獨立線程。其中，渲染線程負責(zé)在后臺動態(tài)生成帶有地理參考的合成視圖，而定位線程則專注于在特征空間內(nèi)將實時視頻流與合成視圖進行快速配準。這種雙線程架構(gòu)不僅確保了每次定位查詢都能獲得動態(tài)更新的地理錨點約束，還在顯著提升系統(tǒng)吞吐量的同時，實現(xiàn)了真正意義上的無漂移連續(xù)定位。

PiLoT 雙線程解耦框架原理圖

2. 百萬級全球尺度合成數(shù)據(jù)集：賦能零樣本泛化

為了獲取無懼環(huán)境干擾的泛化特征，PiLoT 直面核心痛點：即填補無人機領(lǐng)域精確幾何真值訓(xùn)練數(shù)據(jù)的空白。研究團隊基于 AirSim、Cesium 和 Unreal 引擎，構(gòu)建了一個百萬級規(guī)模的全球尺度合成數(shù)據(jù)集。該數(shù)據(jù)集不僅涵蓋了極其豐富的氣象與光照條件，還提供了絕對像素深度和高精度的六自由度位姿真值。這種強大的幾何監(jiān)督機制，成功迫使輕量級網(wǎng)絡(luò)專注于學(xué)習(xí)底層的三維幾何結(jié)構(gòu)，而不是單純擬合特定的場景外觀。憑借這一數(shù)據(jù)驅(qū)動策略，PiLoT 有效跨越了合成與真實的界限，在完全未見過的真實世界場景中，依然展現(xiàn)出優(yōu)異的零樣本泛化能力。

PiLoT百萬級全球尺度合成數(shù)據(jù)集。圖(a)展示了在Cesium 3D Tiles全球地圖上軌跡覆蓋區(qū)域，以及生成的真實無人機飛行軌跡。圖(b)涵蓋了多樣化的環(huán)境模擬，包括多種天氣、光照條件以及大幅度旋轉(zhuǎn)和平移的視角變化。圖(c)強調(diào)了我們數(shù)據(jù)集的幾何一致性監(jiān)督，通過絕對像素級深度進行嚴苛的重投影驗證，確保特征學(xué)習(xí)穩(wěn)定的3D幾何結(jié)構(gòu)。圖(d)呈現(xiàn)了我們算法在真實場景上零樣本泛化表現(xiàn)，Query為實拍夜晚查詢圖，Reference為同一視角畫面，下方為輸出特征金字塔對比效果。

3. 極致效能的 Pixel-to-3D 配準框架

在特征提取與配準機制上，PiLoT 專門針對無人機平臺的資源限制進行了深度優(yōu)化。系統(tǒng)采用了輕量化的 MobileOne-Unet 架構(gòu)，在確保邊緣端推理實時性的前提下，利用自建合成數(shù)據(jù)集的幾何監(jiān)督訓(xùn)練，提取出在晝夜交替、光影劇變等復(fù)雜環(huán)境下依然穩(wěn)健的判別性特征。

與傳統(tǒng)方法渲染多個視角提供參考不同，PiLoT 引入了一套高效的 “一對多” 配準模式：僅通過渲染單個參考視圖提供地理錨點，并結(jié)合多位姿假設(shè)來擴大搜索空間。這種在單一特征空間內(nèi)完成投影匹配的方式，大幅降低了渲染開銷，實現(xiàn)了計算資源的高效利用。

針對無人機飛行過程中的高機動性，優(yōu)化器引入了旋轉(zhuǎn)感知采樣機制。考慮到無人機平移量對偏航（Yaw）和俯仰（Pitch）動作極度敏感，系統(tǒng)通過各向異性采樣，在對應(yīng)軸向上針對性地擴大了搜索范圍。這一設(shè)計有效應(yīng)對了高達 10 米位移與 10 度偏航的劇烈?guī)g運動，克服了傳統(tǒng)優(yōu)化器易陷入局部最優(yōu)的局限性。

在最終的位姿解算階段，優(yōu)化過程在多尺度特征金字塔上展開，遵循由粗到精的策略逐步收縮搜索空間。為突破顯存讀寫瓶頸，團隊設(shè)計了定制化的 CUDA 算子，通過并行加速的 LM 優(yōu)化迭代實現(xiàn)了30 倍的計算加速，引導(dǎo)位姿平滑、快速地收斂至全局最優(yōu)解。

PiLoT 整體算法框架

實驗結(jié)果與分析

為了驗證系統(tǒng)性能，研究團隊將 PiLoT 與兩類具有代表性的定位方法進行了全面對比。第一類是混合定位方法，如結(jié)合了 ORB-SLAM3 的 Render2ORB，以及基于 RAFT 光流追蹤的 Render2RAFT，這兩者均采用 1Hz 的絕對位姿模塊進行定期校正；第二類是逐幀絕對定位方法，包括每一幀獨立對齊參考視圖并采用特征對齊求解位姿的 PixLoc，以及基于渲染 - 對比框架的 Render2Loc。在對比實驗中，研究團隊為 Render2Loc 集成了 LoFTR、EfficientLoFTR、RoMaV2 以及專門針對航空視覺優(yōu)化的 Aerial-MASt3R 等四種 SoTA 匹配器。

1.無人機定位精度：PiLoT 在 SynthCity-6、UAVScenes 及 UAVD4L-2yr 三大基準測試中，憑借 28FPS 的卓越實時性與米級的定位精度，全面超越了所有混合定位與絕對定位基準模型。

無人機自定位精度對比

PiLoT 在高機動飛行條件下的無漂移表現(xiàn)

2.動態(tài)目標定位：得益于精準的無人機自定位，PiLoT 通過射線投射（Ray Tracing）解算得到極高精度的 3D 目標定位，軌跡與 RTK 真值高度貼合。

PiLoT 動態(tài)目標指示展示（場景一）

PiLoT 動態(tài)目標指示展示（場景二）

總結(jié)與思考

PiLoT 讓無人機真正學(xué)會了 “看圖認路” 與 “目標鎖位”。它的成功以及未來的演進方向，為我們帶來了以下三個核心啟發(fā)：

1.破除累積誤差，實現(xiàn)真正的無漂移：將實時視頻流與帶有地理參考的 3D 地圖直接對齊，可以有效擺脫對外部脆弱 GNSS 信號和昂貴主動傳感器的依賴。這一范式轉(zhuǎn)換為復(fù)雜、拒止環(huán)境下的無人機自主導(dǎo)航提供了全新解法。

2.Data-Centric AI：在垂直領(lǐng)域真實數(shù)據(jù)匱乏時，高質(zhì)量的仿真合成數(shù)據(jù)結(jié)合嚴格的底層幾何約束，能夠有效賦予模型在未見過的真實世界中零樣本泛化的能力。

3.探索更輕量的地圖表征：目前的高保真定位一定程度上依賴于 3D Mesh 模型。為了進一步打破地圖獲取的限制，團隊后續(xù)會繼續(xù)研究支持更輕量的通用地圖表征（如 DOM 數(shù)字正射影像圖和 DEM 數(shù)字高程模型等），推動該技術(shù)在更廣闊的荒野與城市場景中實現(xiàn)大規(guī)模落地。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.