![]()
在復(fù)雜、甚至是 GNSS(全球?qū)Ш叫l(wèi)星系統(tǒng))拒止的環(huán)境中,如何讓僅搭載單目相機的無人機實現(xiàn)精準、無漂移的自我與目標定位?
國防科技大學(xué)虛擬現(xiàn)實與視覺計算團隊(SAW Lab)聯(lián)合多所高校推出無人機實時地理定位系統(tǒng)「PiLoT」,首次實現(xiàn)僅依靠單目 RGB 序列即可在 GNSS 拒止環(huán)境下完成無人機 6-DoF 位姿及任意目標的實時、無漂移地理定位。PiLoT 在嵌入式平臺(如 NVIDIA Jetson Orin)上即可達到 25 FPS 的高性能,在復(fù)雜真實場景下的定位精度與魯棒性均達到當(dāng)前最先進水平,成功解決了大規(guī)模場景下跨視角匹配與零樣本泛化的難題。該研究成果被 CVPR 2026 接收為 Highlight 論文。
![]()
PiLoT 在10km飛行軌跡中的實時無漂移表現(xiàn)。畫面主視圖展示了無人機在基于實景三維模型構(gòu)建的數(shù)字孿生場景中的飛行軌跡,PiLoT系統(tǒng)解算的實時軌跡(ES_TRACK,綠色光帶)與RTK記錄的真值航跡(GT_TRACK,粉色光帶)高度重合,直觀呈現(xiàn)了系統(tǒng)在復(fù)雜地理環(huán)境下的航跡定位效果。左下角小窗口“Query view”為無人機捕獲的實時視頻流,“Render view”則是系統(tǒng)根據(jù)當(dāng)前位姿估計值從三維地圖中同步渲染生成的地理參考視圖,記錄了從傍晚到入夜的劇烈光照變化過程。在長達13分鐘、航程超過10公里的飛行測試中,PiLoT維持了1.374米的均值定位誤差,并保持25~30 FPS的實時推理速度。
![]()
- 論文標題:PiLoT: Neural Pixel-to-3D Registration for UAV-based Ego and Target Geo-localization
- 收錄會議:CVPR 2026 Highlight
- 所屬機構(gòu):國防科技大學(xué),浙江大學(xué),西湖大學(xué),杭州電子科技大學(xué)
- 論文鏈接:https://arxiv.org/abs/2603.20778
- 項目主頁:https://nudt-sawlab.github.io/PiLoT/
研究動機:無人機定位如何擺脫 GNSS 依賴?
怎樣的無人機地理定位系統(tǒng)才算理想?通常而言,它至少需要滿足三個核心標準:
- 全局高精度(Drift-free): 能夠有效克服傳統(tǒng)里程計在長距離、大范圍飛行中的累積誤差,實現(xiàn)無漂移的一致與精準;
- 全天時高魯棒(Long-term): 面對跨時段的光照劇變,以及劇烈機動帶來的運動模糊與大視角變化,系統(tǒng)依然能穩(wěn)定追蹤不崩潰;
- 低算力與載荷門檻(Real-time): 滿足嚴苛的 SWaP(體積 / 重量 / 功耗)限制,無需掛載重型傳感器,在受限的邊緣平臺(如 Jetson)實時運行。
當(dāng)前的無人機地理定位技術(shù),無論是用于自主導(dǎo)航還是對地目標偵察,大多遵循一套約定俗成的系統(tǒng)架構(gòu):先依靠視覺里程計(VIO)和衛(wèi)星信號(GNSS)算好自身位置,再掛載一臺激光測距儀去反推地面目標的坐標。這種架構(gòu)存在兩個弱點:前者高度依賴外部信號,后者則極度依賴重型主動載荷。
直覺告訴我們,這或許并非最佳解法:既然無人機搭載了視覺傳感器,如果我們擁有一張已知的三維地圖,它能否像人類一樣,直接實現(xiàn) “看圖認路”?可否擺脫對 GNSS 的依賴,實現(xiàn)真正無漂移的無人機視頻定位?為了回答這一問題,國防科技大學(xué) SAW Lab 團隊將目光投向了像素級的 3D 配準,試圖從純視覺視角尋找答案。
核心洞察與解決方案:PiLoT
回看傳統(tǒng)的 VIO 系統(tǒng),它主要通過比較前后兩幀圖像來計算相對位移。這類似于航位推算,飛行距離越遠,微小的測量誤差累積得就越多。
研究團隊的思路是弱化相對觀測,直接建立絕對錨點。通過將每幀 2D 視頻像素直接映射到帶有絕對坐標的 3D 地理模型上,切斷誤差的累加路徑。這引出了 PiLoT 框架的核心理念:將無人機自定位與目標定位統(tǒng)一重構(gòu)為像素到 3D 的配準問題。只要將實時畫面與三維世界精準對齊,相機的六自由度位姿以及目標的真實地理坐標便能作為聯(lián)合解自然得出。
理論表明,通過實時畫面匹配 3D 地圖可以獲得無漂移的絕對坐標。但要讓這一框架真正滿足低算力門檻與全天時魯棒性,在方法設(shè)計上還面臨兩個核心的技術(shù)挑戰(zhàn):
第一,算力如何高效分配?建立 2D 像素到 3D 大規(guī)模場景的密集對應(yīng)關(guān)系,意味著地圖渲染與特征匹配將消耗巨大的計算資源。若采用 “渲染一幀、定位一幀” 的串行處理模式,輕量級機載平臺顯然無法滿足無人機的實時控制需求。如何設(shè)計高效的計算流分配與異步調(diào)度機制,是該框架必須跨越的計算瓶頸;
第二是深度網(wǎng)絡(luò)如何學(xué)習(xí)幾何本質(zhì)?當(dāng)前主流的視覺匹配模型多基于地面或室內(nèi)數(shù)據(jù)集訓(xùn)練。然而,真實的無人機作業(yè)環(huán)境極其復(fù)雜,不僅存在高空俯視的視角與尺度劇變,還伴隨著跨時段的光照與天氣干擾。這種從地面到復(fù)雜高空的跨度,產(chǎn)生了巨大的域鴻溝(Domain Gap)。面對這種差異,現(xiàn)有模型極易暴露紋理偏置的軟肋,它們傾向于過擬合地面訓(xùn)練集中特定的表觀紋理,一旦遭遇無人機視角的切換與環(huán)境外觀的改變,原先依賴的特征就會失效,導(dǎo)致定位魯棒性大幅下降。因此,如何克服這種偏置,獲取一個無懼真實環(huán)境干擾的無人機專屬特征提取器,便是跨越域鴻溝的關(guān)鍵。
從基于 3D 配準的理論重構(gòu),到跨越算力與域鴻溝的雙重危機,PiLoT 框架給出了一套優(yōu)雅的解法。具體而言,其系統(tǒng)架構(gòu)與方法設(shè)計包含以下三大核心創(chuàng)新:
1. 渲染 - 定位雙線程解耦:突破線性時序瓶頸
為了打破線性時序瓶頸,PiLoT 摒棄了逐幀渲染、逐幀定位的低效串行模式。研究團隊通過將渲染與定位解耦,構(gòu)建了兩個高并發(fā)的獨立線程。其中,渲染線程負責(zé)在后臺動態(tài)生成帶有地理參考的合成視圖,而定位線程則專注于在特征空間內(nèi)將實時視頻流與合成視圖進行快速配準。這種雙線程架構(gòu)不僅確保了每次定位查詢都能獲得動態(tài)更新的地理錨點約束,還在顯著提升系統(tǒng)吞吐量的同時,實現(xiàn)了真正意義上的無漂移連續(xù)定位。
![]()
PiLoT 雙線程解耦框架原理圖
2. 百萬級全球尺度合成數(shù)據(jù)集:賦能零樣本泛化
為了獲取無懼環(huán)境干擾的泛化特征,PiLoT 直面核心痛點:即填補無人機領(lǐng)域精確幾何真值訓(xùn)練數(shù)據(jù)的空白。研究團隊基于 AirSim、Cesium 和 Unreal 引擎,構(gòu)建了一個百萬級規(guī)模的全球尺度合成數(shù)據(jù)集。該數(shù)據(jù)集不僅涵蓋了極其豐富的氣象與光照條件,還提供了絕對像素深度和高精度的六自由度位姿真值。這種強大的幾何監(jiān)督機制,成功迫使輕量級網(wǎng)絡(luò)專注于學(xué)習(xí)底層的三維幾何結(jié)構(gòu),而不是單純擬合特定的場景外觀。憑借這一數(shù)據(jù)驅(qū)動策略,PiLoT 有效跨越了合成與真實的界限,在完全未見過的真實世界場景中,依然展現(xiàn)出優(yōu)異的零樣本泛化能力。
![]()
PiLoT百萬級全球尺度合成數(shù)據(jù)集。圖(a)展示了在Cesium 3D Tiles全球地圖上軌跡覆蓋區(qū)域,以及生成的真實無人機飛行軌跡。圖(b)涵蓋了多樣化的環(huán)境模擬,包括多種天氣、光照條件以及大幅度旋轉(zhuǎn)和平移的視角變化。圖(c)強調(diào)了我們數(shù)據(jù)集的幾何一致性監(jiān)督,通過絕對像素級深度進行嚴苛的重投影驗證,確保特征學(xué)習(xí)穩(wěn)定的3D幾何結(jié)構(gòu)。圖(d)呈現(xiàn)了我們算法在真實場景上零樣本泛化表現(xiàn),Query為實拍夜晚查詢圖,Reference為同一視角畫面,下方為輸出特征金字塔對比效果。
3. 極致效能的 Pixel-to-3D 配準框架
在特征提取與配準機制上,PiLoT 專門針對無人機平臺的資源限制進行了深度優(yōu)化。系統(tǒng)采用了輕量化的 MobileOne-Unet 架構(gòu),在確保邊緣端推理實時性的前提下,利用自建合成數(shù)據(jù)集的幾何監(jiān)督訓(xùn)練,提取出在晝夜交替、光影劇變等復(fù)雜環(huán)境下依然穩(wěn)健的判別性特征。
與傳統(tǒng)方法渲染多個視角提供參考不同,PiLoT 引入了一套高效的 “一對多” 配準模式:僅通過渲染單個參考視圖提供地理錨點,并結(jié)合多位姿假設(shè)來擴大搜索空間。這種在單一特征空間內(nèi)完成投影匹配的方式,大幅降低了渲染開銷,實現(xiàn)了計算資源的高效利用。
針對無人機飛行過程中的高機動性,優(yōu)化器引入了旋轉(zhuǎn)感知采樣機制。考慮到無人機平移量對偏航(Yaw)和俯仰(Pitch)動作極度敏感,系統(tǒng)通過各向異性采樣,在對應(yīng)軸向上針對性地擴大了搜索范圍。這一設(shè)計有效應(yīng)對了高達 10 米位移與 10 度偏航的劇烈?guī)g運動,克服了傳統(tǒng)優(yōu)化器易陷入局部最優(yōu)的局限性。
在最終的位姿解算階段,優(yōu)化過程在多尺度特征金字塔上展開,遵循由粗到精的策略逐步收縮搜索空間。為突破顯存讀寫瓶頸,團隊設(shè)計了定制化的 CUDA 算子,通過并行加速的 LM 優(yōu)化迭代實現(xiàn)了30 倍的計算加速,引導(dǎo)位姿平滑、快速地收斂至全局最優(yōu)解。
![]()
PiLoT 整體算法框架
實驗結(jié)果與分析
為了驗證系統(tǒng)性能,研究團隊將 PiLoT 與兩類具有代表性的定位方法進行了全面對比。第一類是混合定位方法,如結(jié)合了 ORB-SLAM3 的 Render2ORB,以及基于 RAFT 光流追蹤的 Render2RAFT,這兩者均采用 1Hz 的絕對位姿模塊進行定期校正;第二類是逐幀絕對定位方法,包括每一幀獨立對齊參考視圖并采用特征對齊求解位姿的 PixLoc,以及基于渲染 - 對比框架的 Render2Loc。在對比實驗中,研究團隊為 Render2Loc 集成了 LoFTR、EfficientLoFTR、RoMaV2 以及專門針對航空視覺優(yōu)化的 Aerial-MASt3R 等四種 SoTA 匹配器。
1.無人機定位精度:PiLoT 在 SynthCity-6、UAVScenes 及 UAVD4L-2yr 三大基準測試中,憑借 28FPS 的卓越實時性與米級的定位精度,全面超越了所有混合定位與絕對定位基準模型。
![]()
無人機自定位精度對比
![]()
PiLoT 在高機動飛行條件下的無漂移表現(xiàn)
2.動態(tài)目標定位:得益于精準的無人機自定位,PiLoT 通過射線投射(Ray Tracing)解算得到極高精度的 3D 目標定位,軌跡與 RTK 真值高度貼合。
![]()
![]()
PiLoT 動態(tài)目標指示展示(場景一)
![]()
PiLoT 動態(tài)目標指示展示(場景二)
總結(jié)與思考
PiLoT 讓無人機真正學(xué)會了 “看圖認路” 與 “目標鎖位”。它的成功以及未來的演進方向,為我們帶來了以下三個核心啟發(fā):
1.破除累積誤差,實現(xiàn)真正的無漂移:將實時視頻流與帶有地理參考的 3D 地圖直接對齊,可以有效擺脫對外部脆弱 GNSS 信號和昂貴主動傳感器的依賴。這一范式轉(zhuǎn)換為復(fù)雜、拒止環(huán)境下的無人機自主導(dǎo)航提供了全新解法。
2.Data-Centric AI:在垂直領(lǐng)域真實數(shù)據(jù)匱乏時,高質(zhì)量的仿真合成數(shù)據(jù)結(jié)合嚴格的底層幾何約束,能夠有效賦予模型在未見過的真實世界中零樣本泛化的能力。
3.探索更輕量的地圖表征:目前的高保真定位一定程度上依賴于 3D Mesh 模型。為了進一步打破地圖獲取的限制,團隊后續(xù)會繼續(xù)研究支持更輕量的通用地圖表征(如 DOM 數(shù)字正射影像圖和 DEM 數(shù)字高程模型等),推動該技術(shù)在更廣闊的荒野與城市場景中實現(xiàn)大規(guī)模落地。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.