337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

千尋智能高陽團隊提出 Point-VLA:視覺定位實現語言指令精準執行

0
分享至



設想這樣一個場景:你打電話讓同事去辦公室某個地方拿東西,僅憑語言描述位置是多么困難。在辦公室里,從一堆已經喝過的礦泉水瓶中,讓對面同學遞過來你之前喝過的那個,只用語言幾乎無法準確描述——「左邊第二個」?「有點舊的那個」?這時候,人們更傾向于用手指一下,或者拿出圖片來指代。

這揭示了一個根本問題:人類在面對面交流時,會自然地通過手勢、指點來完成對物體或位置的定位(grounding),而不是依賴復雜的文本描述。即使對于人類這樣強大的多模態大腦,純語言指令也存在歧義,難以準確傳達空間信息。在雜亂場景、相似物體眾多的環境中,語言描述往往力不從心。

同理,當我們只用語言給視覺-語言-動作(Vision-Language-Action,VLA)模型下達指令時,就如同讓人在電話里描述復雜場景,面臨兩個根本性困境:

第一,語言在某些場景下根本無法精確表達。比如在無參考點的桌面上精確放置物體——「把杯子放在距離左邊緣 15 cm、前方 10 cm 的位置」,這種絕對坐標式的描述既不自然又難以準確傳達。再比如雜亂場景中的特定目標,或者形狀不規則的物體,語言的表達能力觸及了邊界。

第二,即使可以用復雜詳細的語言描述,VLA 模型也難以泛化理解。研究發現,雖然先進的視覺-語言模型(VLM)能以 60-70% 的準確率定位復雜描述的目標,但 text-only VLA 在執行時的成功率卻只有 25% 左右。復雜的空間關系描述超出了 VLA 模型的泛化能力范圍。

千尋智能高陽團隊的研究人員注意到這兩個根本性瓶頸,在最新論文《Point What You Mean: Visually Grounded Instruction Policy》中提出了 Point-VLA 方法。該方法通過在圖像上疊加邊界框(bounding box)提供明確的視覺定位線索,讓機器人能像人一樣「看著圖、指著點」來理解指令,在真實機器人操作任務中實現了高達 92.5% 的成功率,相比純文本 VLA 的 32.4% 提升了近 3 倍。

  • 論文標題:Point What You Mean: Visually Grounded Instruction Policy
  • 論文鏈接:https://arxiv.org/pdf/2512.18933
  • 項目主頁:https://yuhang-harry.github.io/Point-VLA



圖 1:Point-VLA 通過在圖像上疊加邊界框,解決了雜亂場景抓取、OOD 物體操作、無參考點精確放置等語言指令難以勝任的任務

語言的邊界:VLA 模型面臨的根本挑戰

視覺-語言-動作(VLA)模型近年來在具身智能領域取得了顯著進展,能夠將自然語言指令直接轉化為機器人動作。然而,研究團隊發現,VLA 模型仍然受制于語言本身的固有局限性。

兩大核心問題:

1. 語言無法表達的場景(Inexpressible References)

在真實世界中,有些場景語言根本無法精確描述,無論你怎么努力:

  • 無參考點的精確位置:「把杯子放在桌面上距離左邊緣 15 cm、前方 10 cm 的位置」——這種絕對坐標式的描述,語言表達起來既不自然又容易出錯。
  • 不規則 / 無定形物體:一個形狀復雜、紋理獨特的陶土塊,用語言描述「紅藍條紋、頂部方形底部圓形」仍然模糊不清。
  • 雜亂場景中的特定目標:在八個相同瓶子的桌面上,即使你說「右側第二排中間偏左的那個」,聽者依然難以確定。

這些場景的共同特點是:語言的表達能力觸及了邊界。而人類在這種情況下會自然地用手指一下,或者拿出圖片指給對方看。

2. 復雜描述的泛化困境(Limited Generalization)

即使在某些場景下,我們可以通過非常詳細、復雜的語言描述來補全信息,但這又帶來了新的問題:VLA 模型難以泛化理解這些復雜的空間描述。

研究團隊的實驗揭示了一個令人驚訝的現象:

  • 先進的 VLM(如 GPT-4V)在面對詳細的文本描述時,能夠以 60-70% 的準確率定位目標。
  • 但 text-only VLA 在相同場景下的操作成功率卻只有 25% 左右。

這說明,即使 VLM「看懂」了復雜的語言描述,VLA 模型在將其轉化為精確動作時仍然力不從心。復雜的空間關系描述超出了 VLA 模型的泛化能力范圍,導致在雜亂場景、OOD 物體、精確放置等任務中表現急劇下降。這兩個問題共同構成了 VLA 模型在真實世界部署的根本瓶頸。



圖 2:VLM 能以 60-70% 準確率定位復雜文本描述的目標(左兩例),但 text-only VLA 執行成功率僅 25%,揭示了語言-動作對齊的鴻溝。右側展示了語言根本無法描述的場景(無參考點平面),Point-VLA 通過視覺定位解決了這兩類問題

Point-VLA:像人一樣「指著說」

為了突破語言的固有局限,千尋智能高陽團隊提出了 Point-VLA 方法,其核心思想簡單而有效:既然語言無法精確表達,那就像人類一樣,用「指」的方式來明確目標。

視覺定位指令(Visually Grounded Instruction)

Point-VLA 的關鍵創新在于引入了視覺定位指令。具體而言,系統在機器人觀察到的第一幀圖像上疊加一個邊界框(bounding box),明確標注出目標物體或位置。這個邊界框就像人類用手指指向目標一樣,提供了明確的像素級空間線索。

例如,對于「拿起瓶子」這個指令:

  • 純文本模式:「Pick up the bottle to the right of the leftmost bottles, in the middle of the desk」(信息完整但過于復雜,VLA 難以準確執行)
  • Point-VLA 模式:「Pick up」+ 圖像上的紅色邊界框(信息完整且簡單直接)

這種方式將高層意圖(pick up, place)保留在語言中,而將精確的空間信息(哪個物體、什么位置)編碼在視覺線索中,完美結合了語言的抽象性和視覺的精確性。



圖 3:Point-VLA 推理流程——用戶通過 GUI 在俯視圖上繪制邊界框,或通過手勢由 MLLM 自動生成邊界框,結合簡短文本指令,機器人即可精確執行操作

統一的策略架構

Point-VLA 采用統一的策略架構,能夠同時處理純文本指令和視覺定位指令。在訓練時,模型以 1:1 的比例接收兩種模態的數據:

  • 純文本指令:保持模型對常規語言指令的理解能力。
  • 視覺定位指令:學習利用像素級視覺線索進行精確操作。

這種聯合訓練策略使得 Point-VLA 既能處理簡單的語言指令(如「向前移動」),也能在需要時接受視覺定位來完成復雜任務,實現了靈活的「即插即用」能力。

視頻展示 Point-VLA 在真實機器人上的操作效果,包括雜亂場景抓取、精確放置等任務

可擴展的自動數據標注 Pipeline

視覺定位指令需要為每個演示標注邊界框,這可能帶來數據標注成本的挑戰。千尋智能團隊開發了一套自動數據標注 Pipeline,利用多模態大語言模型(MLLM)自動生成視覺定位監督信號。

Pipeline 的工作流程很直接:給定一段演示視頻和文本指令,MLLM 分析視頻內容,自動識別關鍵幀并在第一幀上標注目標物體的邊界框。為了提升模型的泛化能力,研究團隊還設計了兩種數據增強策略——隨機平移和局部 CutMix。隨機平移鼓勵模型關注目標的相對位置而非絕對坐標,局部 CutMix 則防止模型過擬合特定物體的視覺特征。

這套 Pipeline 使得研究團隊能夠從現有的演示數據中高效生成大量視覺定位監督信號,無需額外的人工標注成本,支持無縫的數據集成和擴展。



圖 4:Point-VLA 訓練流程——MLLM 自動從演示視頻中生成邊界框標注,結合隨機平移和 CutMix 增強,與純文本數據聯合訓練統一策略

實驗驗證:從 32.4% 到 92.5% 的跨越

千尋智能團隊在真實機器人平臺上進行了全面的實驗驗證,涵蓋 6 個具有挑戰性的操作任務,包括不規則物體抓取、OOD 物體抓取、雜亂場景抓取、蛋槽精確放置、平面精確放置和蛋槽精確插入。實驗結果令人振奮:Point-VLA 在所有任務上的平均成功率達到 92.5%,相比純文本 VLA 的 32.4% 提升了近 3 倍

在最具挑戰性的雜亂場景抓取任務中,Point-VLA 的成功率從 43.3% 提升到 94.3%,在精確放置任務中從 23.3% 提升到 90.0%。這些結果充分證明了視覺定位在消除歧義和實現精確操作方面的強大能力。



圖 5:6 個評估任務的真實機器人實驗場景,涵蓋目標物體指代(不規則物體、OOD 物體)和目標位置指代(雜亂抓取、蛋槽、平面放置)等挑戰



表 1:六個真實機器人操作任務的成功率(%)對比,其中text-vla和interleave-vla均經過與Point-vla同樣數據量,精細文本方位詞標注訓練至收斂,保證對比公平性,數據集信息見論文fig5

語言邊界場景的突破

研究團隊特別設計了兩類「語言邊界」場景來驗證 Point-VLA 的能力:

  • 場景 1:語言根本無法表達的任務

在無參考點的平面桌面上精確放置物體:「把杯子放在距離左邊緣 15 cm、前方 10 cm 的位置」。這種絕對坐標式的描述,語言表達既不自然又難以準確傳達。純文本 VLA 在這類任務上的成功率僅 30%。

而 Point-VLA 通過在圖像上直接標注目標位置的邊界框,繞過了語言表達的邊界,成功率達到95%

  • 場景 2:復雜描述難以泛化

在包含 8 個相同瓶子的雜亂桌面上,需要用「拿起右側、最左邊那排瓶子中間的那個」這樣復雜的描述。雖然 VLM 能以 60-70% 準確率定位,但 text-only VLA 在執行時成功率僅 43.3%——模型難以泛化理解如此復雜的空間關系描述。

Point-VLA 通過視覺定位提供明確的像素級線索,使模型無需理解復雜的語言描述就能準確執行,成功率提升到94.3%

此外,研究團隊還在多個機器人平臺和 VLA 模型骨架上進行了驗證,包括 π0.5 和 π0 兩個不同的基礎模型,以及雙臂機器人和全身人形機器人。結果顯示 Point-VLA 在不同模型和硬件配置下均能保持高成功率,證明了其作為通用接口的可擴展性。

在與純文本指令的兼容性測試中,Point-VLA 即使在純文本模式下(不使用視覺定位),也能匹配甚至超越純文本 VLA baseline。研究團隊在三種空間指代任務上進行了對比:相對位置指代、矩陣布局指代和基于參考的指代。結果顯示,Point-VLA 在純文本模式下的表現與 baseline 相當或更好,而在使用視覺定位時則在復雜空間指代任務上取得最高成功率。這說明視覺定位訓練提升了模型對空間關系的理解能力,即使在不使用視覺定位時也能受益。

在數據擴展性實驗中,隨著訓練數據量的增加,Point-VLA 的性能持續提升,而純文本 VLA 很快達到飽和。在 OOD 物體抓取任務中,當訓練數據從 3 個場景增加到 12 個場景時,Point-VLA 的準確率從約 0.8 提升到 0.95,而純文本 VLA 在約 0.27 處就停止增長,表明視覺定位提供的明確監督信號使模型能夠更有效地從數據中學習。



圖 6:(上)Point-VLA 在三種指令模式下的成功率對比——即使在純文本模式下,Point-VLA 也能匹配或超越 baseline,使用視覺定位時在復雜空間指代上取得最高成功率。(下)隨訓練數據增加,Point-VLA 性能持續提升,而純文本 VLA 很快飽和

技術意義與未來展望

Point-VLA 的提出具有重要的理論和實踐意義。首先,它揭示并解決了 VLA 領域的一個根本性問題:語言本身的表達能力限制了模型的性能上限。通過引入視覺定位,Point-VLA 繞過了這一瓶頸,為 VLA 模型開辟了新的發展路徑。

其次,自動數據標注 Pipeline 使得視覺定位監督信號的獲取成本大幅降低,支持從現有演示數據中無縫生成訓練數據,為大規模 VLA 模型的訓練提供了可行的技術路線。

92.5% 的成功率使得 VLA 模型首次在復雜真實場景中達到了實用化的門檻。Point-VLA 展示的精確操作能力,為機器人在工業、服務等領域的實際應用提供了技術基礎。更重要的是,Point-VLA 驗證了「指著說」這種人類自然交互方式在人機交互中的有效性,啟發了未來具身智能系統在多模態交互方面的探索。

關于千尋智能 Spirit AI

千尋智能致力于推動具身智能和機器人技術的發展,通過創新的 AI 算法使機器人能夠更好地理解和執行人類指令。高陽團隊專注于視覺-語言-動作模型的研究,在多模態學習、機器人操作等領域取得了一系列突破性成果。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
楊瀚森正式換老板!NBA董事會批準開拓者出售:估值42.5億美元

楊瀚森正式換老板!NBA董事會批準開拓者出售:估值42.5億美元

羅說NBA
2026-03-31 05:05:20
RAC1:巴薩將向萊萬提供一份低薪合同,頭號目標是阿爾瓦雷斯

RAC1:巴薩將向萊萬提供一份低薪合同,頭號目標是阿爾瓦雷斯

懂球帝
2026-03-31 05:50:27
計算機祖師爺、圖靈獎得主Dijkstra的警告:不要被“自然語言編程”給騙了!

計算機祖師爺、圖靈獎得主Dijkstra的警告:不要被“自然語言編程”給騙了!

新浪財經
2026-03-31 01:29:32
澳洲姑娘來中國旅游,結果生病去醫院,卻驚訝:不用提前約嗎?

澳洲姑娘來中國旅游,結果生病去醫院,卻驚訝:不用提前約嗎?

眼底星碎
2026-03-30 23:08:13
2026年村干部工資大漲!村支書一月到底能領多少?

2026年村干部工資大漲!村支書一月到底能領多少?

復轉這些年
2026-03-30 12:47:19
有種人生贏家叫劉國梁,辭職乒協主席僅5個月,已經走上光明大道

有種人生贏家叫劉國梁,辭職乒協主席僅5個月,已經走上光明大道

牛牛叨史
2025-11-22 02:21:12
又不打CBA了!體測完決定再戰NCAA!

又不打CBA了!體測完決定再戰NCAA!

籃球大圖
2026-03-31 17:16:06
三連勝!詹姆斯21+10+12,賽后老詹先一步退場,小里去找濃眉

三連勝!詹姆斯21+10+12,賽后老詹先一步退場,小里去找濃眉

擔酒
2026-03-31 12:30:09
韓國遭遇“外資大規模撤離潮”

韓國遭遇“外資大規模撤離潮”

環球時報國際
2026-03-31 14:38:17
突然拉升!霍爾木茲海峽,大消息

突然拉升!霍爾木茲海峽,大消息

新浪財經
2026-03-31 10:20:49
“只剩咱倆了,你也100了,都不容易”!查爾斯國王看望百歲保姆

“只剩咱倆了,你也100了,都不容易”!查爾斯國王看望百歲保姆

書醬瞄瞄
2026-03-20 15:37:53
政壇“首席”

政壇“首席”

香港經濟導報
2026-02-27 10:58:46
粵超廣州隊名單公布,鄭智之子鄭子一在列

粵超廣州隊名單公布,鄭智之子鄭子一在列

懂球帝
2026-03-31 14:26:31
納斯達克指數期貨擴大至0.6%

納斯達克指數期貨擴大至0.6%

每日經濟新聞
2026-03-31 08:29:04
伊朗為何為廣島哭墳?只因與日本關系更鐵,并不在乎是否傷害中國

伊朗為何為廣島哭墳?只因與日本關系更鐵,并不在乎是否傷害中國

阿胡
2026-03-31 17:09:58
涉事人員已停職!三甲醫院緊急道歉

涉事人員已停職!三甲醫院緊急道歉

梅斯醫學
2026-03-30 18:36:15
伊朗外長:美以無法摧毀伊朗人民對知識的渴求

伊朗外長:美以無法摧毀伊朗人民對知識的渴求

新華社
2026-03-30 06:11:02
上海早高峰地鐵突發!不少人追問“咋了”,有人吐槽車廂擠到爆……最新進展

上海早高峰地鐵突發!不少人追問“咋了”,有人吐槽車廂擠到爆……最新進展

環球網資訊
2026-03-31 11:26:27
廣州農商銀行空降80后監管出身的高管,在任3年的女董秘也獲提拔

廣州農商銀行空降80后監管出身的高管,在任3年的女董秘也獲提拔

湘財Plus
2026-03-31 09:50:34
敗退臺灣的蔣介石,看到上甘嶺戰報,含淚說出了15個字的高度評價

敗退臺灣的蔣介石,看到上甘嶺戰報,含淚說出了15個字的高度評價

史韻流轉
2026-03-30 09:22:48
2026-03-31 18:48:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12647文章數 142600關注度
往期回顧 全部

科技要聞

尚未正式宣發,國行蘋果AI半夜"意外閃現"

頭條要聞

時隔7年美國重開駐委內瑞拉大使館:辦公樓霉菌滋生

頭條要聞

時隔7年美國重開駐委內瑞拉大使館:辦公樓霉菌滋生

體育要聞

縣城修車工,用20年成為世界冠軍

娛樂要聞

絲芭傳媒舉報鞠婧祎:瞞報收入竟達85%

財經要聞

油價暴漲 我們的生活成本會飆升多少?

汽車要聞

騰勢Z9GT到底GT在哪?

態度原創

手機
本地
健康
公開課
軍事航空

手機要聞

國行iPhone開啟蘋果AI屬于意外!蘋果回應稱“現已修復”

本地新聞

用Color Walk的方式解鎖城市春日

干細胞抗衰4大誤區,90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:即使霍爾木茲海峽仍關閉 也愿意結束戰爭

無障礙瀏覽 進入關懷版