337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

打破2D視覺枷鎖,全新端到端框架GeoVLA重構(gòu)機(jī)器人空間感知

0
分享至





論文名稱: GeoVLA: Empowering 3D Representation in Vision-Language-Action Models

在具身智能的浪潮中,VLA 模型被視為通往通用機(jī)器人的快車道。然而,隨著研究深入到非結(jié)構(gòu)化環(huán)境,現(xiàn)有 VLA 模型面臨著一個嚴(yán)重的維度缺陷:空間失明。

目前,大多數(shù) VLA 模型(比如 OpenVLA、RT-2、Pi0、Pi05)單純依賴 2D RGB 圖像作為視覺輸入,導(dǎo)致模型眼中的世界“紙片化”,嚴(yán)重缺乏深度信息和幾何先驗;由此帶來的后果是:

深度感知缺失:面對需要精確距離判斷的任務(wù),比如精準(zhǔn)投籃、掛扣環(huán),2D 模型往往“抓瞎”,無法準(zhǔn)確預(yù)測 Z 軸的動作。

空間適應(yīng)性差:一旦物體尺寸發(fā)生變化(Scale Variance)或相機(jī)視角發(fā)生偏移(Viewpoint Shift),便無法理解物體在空間中的本質(zhì)位置,導(dǎo)致任務(wù)失敗。



圖 1:GeoVLA 整體示意圖

Dexmal 原力靈機(jī)作者團(tuán)隊提出一種全新的 VLA 框架 GeoVLA,它在保留現(xiàn)有視覺-語言模型(VLM)的預(yù)訓(xùn)練能力的同時,采用了一種優(yōu)雅的雙流架構(gòu)(Dual-path Architecture)。

具體而言,GeoVLA 在保留 VLM 強(qiáng)大的語義理解能力的同時,引入專用的點云嵌入網(wǎng)絡(luò) PEN 和空間感知動作專家 3DAE,直接利用深度圖生成的點云數(shù)據(jù),賦予機(jī)器人真正的三維幾何感知能力。

這一設(shè)計不僅在仿真環(huán)境中取得 SOTA,更在真實世界的魯棒性測試中,特別是在視角改變和物體尺度變化的極端條件下,展現(xiàn)出驚人的適應(yīng)力。

方法框架

常見的做法試圖讓一個 VLM 既懂語義又懂幾何,這往往顧此失彼;GeoVLA 的核心邏輯是選擇把任務(wù)解耦:讓 VLM 負(fù)責(zé)“看懂是什么”,讓點云網(wǎng)絡(luò)負(fù)責(zé)“看清在哪里”。



圖2:GeoVLA 框架圖

GeoVLA 是一個全新的端到端框架,其流程包含三個關(guān)鍵組件的協(xié)同工作:

語義理解流:利用預(yù)訓(xùn)練的 VLM(如 Prismatic-7B)處理 RGB 圖像和語言指令,提取融合后的視覺-語言特征。

幾何感知流:利用點云嵌入網(wǎng)絡(luò) PEN 處理由深度圖轉(zhuǎn)換而來的點云,獨立提取高精度的 3D 幾何特征。

動作生成流:通過3D 增強(qiáng)動作專家 3DAE 融合上述兩種特征,生成精確的動作序列。

點云嵌入網(wǎng)絡(luò) PEN



圖 3:雙路徑點云嵌入網(wǎng)絡(luò)細(xì)節(jié)圖

原始深度圖往往包含大量噪聲,且數(shù)據(jù)稀疏,直接作為輸入效果不佳。點云嵌入網(wǎng)絡(luò) PEN 專為機(jī)器人操作設(shè)計,采用雙路徑架構(gòu)來提取干凈且緊湊的幾何特征:

幾何特征提取:使用大核卷積和局部池化的輕量級 CNN,將非結(jié)構(gòu)化的點云編碼為 Patch 級別的幾何 Token。

空間位置編碼:引入在大語言模型中常見的旋轉(zhuǎn)位置編碼 RoPE,它能極好地保留 3D 空間中的相對位置信息,這對于操作任務(wù)至關(guān)重要。

空間錨點(Spatial Anchor)設(shè)計是 PEN 的一大亮點。作者團(tuán)隊并沒有簡單地對所有點云特征進(jìn)行平均池化,而是選擇對應(yīng)于末端執(zhí)行器坐標(biāo)原點的 Token 作為“錨點”。這種以“手”為中心的視角設(shè)計,讓模型能夠顯式地建模“手”與“物體”之間的幾何關(guān)系,大幅提升操作精度。

3D 增強(qiáng)動作專家 3DAE

特征提取只是第一步,如何有效融合 RGB 的語義信息和點云的幾何信息,實現(xiàn)1+1>2的效果,是多模態(tài)研究當(dāng)中的難點。作者團(tuán)隊在動作生成端采用基于擴(kuò)散 Transformer (DiTs) 的架構(gòu),并創(chuàng)新性地引入混合專家 (MoE) 機(jī)制。

靜態(tài)路由策略 (Static Routing):這是一個直覺且有效的策略。在訓(xùn)練過程中,由于 VLM 分支是預(yù)訓(xùn)練的,而點云分支是從頭開始學(xué),如果使用常規(guī)的動態(tài)路由,模型會傾向于走捷徑,只依賴 VLM 分支,忽略點云信息。

強(qiáng)制解耦:作者團(tuán)隊采用了靜態(tài)路由,隨機(jī)丟棄某種模態(tài),逼迫模型必須學(xué)會獨立利用幾何信息來解決問題,從而確保了雙流信息的有效融合。

實驗結(jié)果

GeoVLA 在仿真和真機(jī)實驗中均展現(xiàn)出對傳統(tǒng) 2D VLA 模型的壓倒性優(yōu)勢,證明顯式 3D 表征在復(fù)雜操作中的不可替代性。

仿真環(huán)境測試結(jié)果



表 1:LIBERO 評測結(jié)果

在 LIBERO 基準(zhǔn)測試中,GeoVLA 超越所有任務(wù)套件。在最具挑戰(zhàn)性的 LIBERO-90(長程多任務(wù))中,GeoVLA 達(dá)到 97.7% 的成功率,超越之前的 SOTA 方法 OpenVLA-OFT (95.3%) 和 CogACT (93.2%)。



表 2:ManiSkill2 評測結(jié)果

在物理仿真更為逼真的 ManiSkill2 中,GeoVLA 優(yōu)勢更加明顯,平均成功率達(dá)到 77%,大幅領(lǐng)先 Dita (66%) 和 CogACT (69%);特別是在 PickClutterYCB 這種物體堆疊雜亂、遮擋嚴(yán)重的任務(wù)中,GeoVLA 憑借點云帶來的幾何理解,保持了極高的操作精度。

真機(jī)環(huán)境與魯棒性測試



圖 4:真機(jī)實驗任務(wù)的變體展示

作者團(tuán)隊使用 WidowX-250s 機(jī)械臂進(jìn)行了廣泛的真機(jī)測試;實驗被分為“基礎(chǔ)任務(wù)”和“3D 感知任務(wù)”。在域內(nèi)任務(wù)中,GeoVLA 在基礎(chǔ)任務(wù)上平均成功率 95.0%,在 3D 感知任務(wù)上為 77.5%,總體平均 86.3%,大幅領(lǐng)先 Pi0 (57.5%) 和 CogACT (76.3%)。特別是在 Put Basketball 和 Put Hairclip 等需要精確空間理解的任務(wù)中,GeoVLA 表現(xiàn)出更好的魯棒性。



表 4:真機(jī)任務(wù)評測結(jié)果

更令人印象深刻的是 GeoVLA 在分布外(OOD)場景下的魯棒性,這也是 GeoVLA 最核心的突破點:



表 5(左):投籃任務(wù)變體的評測結(jié)果;表 6(右):套娃任務(wù)變體的評測結(jié)果

投籃任務(wù)變體(高度變化):當(dāng)籃筐高度被調(diào)整到訓(xùn)練數(shù)據(jù)未覆蓋的最高位置 (H1) 時,依賴 2D 視覺的 CogACT 和 Pi0 徹底失效,成功率降至 20%;而 GeoVLA 憑借點云信息,依然保持 60% 的成功率。

套娃任務(wù)變體(尺寸變化):面對比訓(xùn)練時大一號的套娃,2D 模型往往因為像素特征不匹配而無法識別;GeoVLA 則通過幾何形狀匹配,保持了 80% 的高成功率。

堆疊積木任務(wù)變體(視角變化):堆疊積木時,當(dāng)相機(jī)視角偏移 45°,CogACT 成功率直接歸零,說明 2D 模型極度依賴特定視角的像素記憶;而 GeoVLA 依然穩(wěn)健,保持 70% 的成功率,證明其學(xué)到了真正的 3D 空間結(jié)構(gòu)。

胡蘿卜任務(wù)變體(移除海綿墊):訓(xùn)練時使用的海綿墊在推理階段被移除,胡蘿卜位置被降低,導(dǎo)致大多數(shù)方法抓取胡蘿卜失敗;GeoVLA 則能更穩(wěn)定且成功抓取,展現(xiàn)出更強(qiáng)的泛化能力。

結(jié)論

本文中,Dexmal 原力靈機(jī)作者團(tuán)隊提出 GeoVLA,通過引入點云嵌入網(wǎng)絡(luò) PEN 和 3D 增強(qiáng)動作專家 3DAE,成功打破 VLA 模型在 3D 物理世界中的“感知壁壘”。

這項工作有力證明在端到端的機(jī)器人學(xué)習(xí)中,顯式引入 3D 幾何表征是提升模型泛化能力和魯棒性的關(guān)鍵。GeoVLA 不僅解決了傳統(tǒng) VLA 模型“看得見但摸不準(zhǔn)”的難題,更為未來具身智能邁向更復(fù)雜、更開放的非結(jié)構(gòu)化環(huán)境提供了一種高效且優(yōu)雅的解決方案。

特別是其雙路徑并行設(shè)計和靜態(tài)路由策略,為多模態(tài)融合提供了一個極具參考價值的范式:既保留了大模型的通用語義知識,又補(bǔ)齊了物理世界的幾何常識。對于追求精確操控的具身智能領(lǐng)域而言,GeoVLA 可能是一個重要的里程碑,標(biāo)志著 VLA 模型從“看圖說話”向“空間智能”的實質(zhì)性跨越。

參考文獻(xiàn)

Chengmeng Li, Junjie Wen, Yan Peng, Yaxin Peng, Feifei Feng, and Yichen Zhu. Pointvla: Injecting the 3d world into vision-language-action models. arXiv preprint arXiv:2503.07511, 2025.

Delin Qu, Haoming Song, Qizhi Chen, Yuanqi Yao, Xinyi Ye, Yan Ding, Zhigang Wang, JiaYuan Gu, Bin Zhao,Dong Wang, and Xuelong Li. Spatialvla: Exploring spatial representations for visual-language-action model. In Robotics: Science and Systems (RSS), 2025.

Zhi Hou, Tianyi Zhang, Yuwen Xiong, Haonan Duan, Hengjun Pu, Ronglei Tong, Chengyang Zhao, Xizhou Zhu,Yu Qiao, Jifeng Dai, and Yuntao Chen. Dita: Scaling diffusion transformer for generalist vision-language-action policy. arXiv preprint arXiv:2503.19757, 2025.

{Moo Jin} Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, and Chelsea Finn. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246

Li Qixiu, Liang Yaobo, Wang Zeyu, Luo Lin, Chen Xi, Liao Mozheng, Wei Fangyun, Deng Yu, Xu Sicheng, Zhang Yizhong, and others. CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation. arXiv preprint arXiv:2411.19650.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
恐怖!伊朗安全部隊的指揮官陸續(xù)接到了摩薩德特工的專門電話....

恐怖!伊朗安全部隊的指揮官陸續(xù)接到了摩薩德特工的專門電話....

深度報
2026-03-19 22:33:30
拔出蘿卜帶出泥!釋永信以前在少林寺有多過分,可能遠(yuǎn)超世人想象

拔出蘿卜帶出泥!釋永信以前在少林寺有多過分,可能遠(yuǎn)超世人想象

最新聲音
2026-03-21 08:03:15
莫耶斯:這是本賽季我們的最佳比賽;續(xù)約?我的合同還有一年

莫耶斯:這是本賽季我們的最佳比賽;續(xù)約?我的合同還有一年

懂球帝
2026-03-22 05:53:19
細(xì)思極恐,泰山隊被針對來的這么快,0-4慘敗,北京籍貫VAR立功!

細(xì)思極恐,泰山隊被針對來的這么快,0-4慘敗,北京籍貫VAR立功!

體壇風(fēng)之子
2026-03-22 04:30:03
1斤100元!廈門3男子凌晨海上追5小時,釣到1條560斤的

1斤100元!廈門3男子凌晨海上追5小時,釣到1條560斤的

萬象硬核本尊
2026-03-20 19:29:11
等我老了,也學(xué)日本主婦:少穿衛(wèi)衣、毛衣,換成這樣穿更優(yōu)雅減齡

等我老了,也學(xué)日本主婦:少穿衛(wèi)衣、毛衣,換成這樣穿更優(yōu)雅減齡

冒泡泡的魚兒
2026-03-18 14:40:23
“梅姨案”時間線|追蹤23年,“隱身”人販終現(xiàn)形

“梅姨案”時間線|追蹤23年,“隱身”人販終現(xiàn)形

澎湃新聞
2026-03-21 18:06:27
中央第九生態(tài)環(huán)境保護(hù)督察組向江蘇浙江安徽反饋大運河生態(tài)環(huán)境保護(hù)專項督察情況

中央第九生態(tài)環(huán)境保護(hù)督察組向江蘇浙江安徽反饋大運河生態(tài)環(huán)境保護(hù)專項督察情況

現(xiàn)代快報
2026-03-20 17:19:03
真神仙專業(yè)!中國道教學(xué)院招生了,包含道教歷史與神仙等5個專業(yè),計劃招30名本科生,16名研究生

真神仙專業(yè)!中國道教學(xué)院招生了,包含道教歷史與神仙等5個專業(yè),計劃招30名本科生,16名研究生

觀威海
2026-03-21 15:43:14
漲價就真的沒人買:中國大陸顯卡銷量直接腰斬!

漲價就真的沒人買:中國大陸顯卡銷量直接腰斬!

快科技
2026-03-19 12:29:41
“梅姨”現(xiàn)身并落網(wǎng)!對販賣兒童事實供認(rèn)不諱,已被依法逮捕

“梅姨”現(xiàn)身并落網(wǎng)!對販賣兒童事實供認(rèn)不諱,已被依法逮捕

南方都市報
2026-03-21 11:35:00
藍(lán)色起源加入軌道數(shù)據(jù)中心競賽,計劃部署高達(dá)51600顆衛(wèi)星

藍(lán)色起源加入軌道數(shù)據(jù)中心競賽,計劃部署高達(dá)51600顆衛(wèi)星

NASA愛好者
2026-03-21 02:34:07
2026年清明掃墓,這4天千萬別去,尤其最后一天關(guān)乎健康!

2026年清明掃墓,這4天千萬別去,尤其最后一天關(guān)乎健康!

老特有話說
2026-03-21 13:39:52
結(jié)束訪美的高市不笑了,回國前突然喊話中方:愿意和中國展開對話

結(jié)束訪美的高市不笑了,回國前突然喊話中方:愿意和中國展開對話

愛看劇的阿峰
2026-03-22 00:20:38
3月20日錄制現(xiàn)場炸鍋!李維嘉哭到停主持!節(jié)目中斷15分鐘才重啟

3月20日錄制現(xiàn)場炸鍋!李維嘉哭到停主持!節(jié)目中斷15分鐘才重啟

樂悠悠娛樂
2026-03-21 09:55:38
普京:俄羅斯是伊朗艱難時刻的忠實伙伴

普京:俄羅斯是伊朗艱難時刻的忠實伙伴

新華社
2026-03-21 17:42:04
曝雙頂流的孩子已經(jīng)三周歲

曝雙頂流的孩子已經(jīng)三周歲

聚焦最新動態(tài)
2026-03-21 08:06:03
熱搜第一!山姆回應(yīng)“冷鮮豬肉數(shù)月前屠宰”!網(wǎng)友:今年會費剛續(xù)完…

熱搜第一!山姆回應(yīng)“冷鮮豬肉數(shù)月前屠宰”!網(wǎng)友:今年會費剛續(xù)完…

北京商報
2026-03-21 12:06:17
美媒:中國軍艦在仙賓礁用火控雷達(dá)照射了菲律賓最新型護(hù)衛(wèi)艦

美媒:中國軍艦在仙賓礁用火控雷達(dá)照射了菲律賓最新型護(hù)衛(wèi)艦

愛吃醋的貓咪
2026-03-21 22:11:00
今晚首播!央八32集年代大劇來襲,主演陣容強(qiáng),這劇收視要爆!

今晚首播!央八32集年代大劇來襲,主演陣容強(qiáng),這劇收視要爆!

阿策聊實事
2026-03-22 05:11:23
2026-03-22 06:27:00
腦極體 incentive-icons
腦極體
從智能密鑰到已知盡頭
3623文章數(shù) 167373關(guān)注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機(jī)器人出貨量第一!

頭條要聞

伊朗導(dǎo)彈擊中以色列核設(shè)施附近 大范圍爆炸視頻公布

頭條要聞

伊朗導(dǎo)彈擊中以色列核設(shè)施附近 大范圍爆炸視頻公布

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩?qū)幗K于涼了?出軌風(fēng)波影響惡劣

財經(jīng)要聞

通脹警報拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態(tài)度原創(chuàng)

旅游
游戲
親子
家居
公開課

旅游要聞

【花Young貴陽】春日限定!十里河灘海棠花盛開引客來

魔獸世界:時光服P3階段將至,新手該練什么職業(yè),這個很重要!

親子要聞

帶娃寶媽用什么素顏霜,快速提氣色不用卸妝?

家居要聞

時空交織 空間綺夢

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版