337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

AAAI 2026 Oral|InfiGUI-G1模型來了,刷新GUI Grounding SOTA

0
分享至



隨著多模態大語言模型(MLLM)的飛速發展,能夠像人類一樣通過視覺輸入操作圖形用戶界面(GUI)的智能體(Agent)正逐漸成為現實。然而,在通往通用計算機控制的道路上,如何讓模型精準地將自然語言指令對應到屏幕上的具體元素 —— 即 GUI Grounding 任務,依然是一大難題。

現有的方法,特別是基于驗證獎勵的強化學習(RLVR),雖然在提升 “指得準”(空間對齊)方面表現出色,卻往往在 “指得對”(語義對齊)上遭遇瓶頸。模型常常陷入 “自信陷阱”,在復雜的語義場景下無法通過有效探索找到正確的功能圖標。

針對這一痛點,來自浙江大學、香港理工大學及 InfiX.ai 的研究團隊提出了一種全新的自適應探索策略優化框架(AEPO),并推出了InfiGUI-G1系列模型。該模型通過多答案生成與自適應獎勵機制,徹底打破了傳統 RLVR 的探索瓶頸。僅憑 3B 和 7B 的參數量,InfiGUI-G1 便在多個高難度 GUI 基準測試中刷新了 SOTA,部分指標甚至大幅超越了閉源模型。

本文將深入介紹這項被 AAAI 2026 接收為 Oral 的工作,解讀其如何通過 “學會探索” 來實現更精準的 GUI 語義理解。



  • 論文標題:InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
  • 論文鏈接:https://arxiv.org/abs/2508.05731
  • 代碼鏈接:https://github.com/InfiXAI/InfiGUI-G1

從 “空間對齊” 到 “語義對齊”:被忽視的探索瓶頸

GUI Grounding 任務的核心是將自然語言指令(如 “打開相機”)映射到屏幕上的特定元素坐標。研究團隊指出,這一任務可以解構為兩個正交的維度:

1. 空間對齊(Spatial Alignment):能否精確地定位到元素(即 “指得準”)。

2. 語義對齊(Semantic Alignment):能否識別出功能正確的元素(即 “指得對”)。

現有的 RLVR 方法(如 Naive RLVR)雖然能通過優化坐標生成來提升定位精度,但在面對語義模糊或復雜的指令時卻顯得力不從心。

例如,當指令是 “使用相機搜索物體” 時,屏幕上可能同時存在普通的 “相機應用” 和具有視覺搜索功能的 “Google Lens”。缺乏深度語義理解的模型往往會自信地死磕 “相機應用” 圖標。由于傳統 RL 依賴當前策略采樣,模型會不斷重復這個高置信度的錯誤,陷入“自信陷阱”(Confidence Trap),從而無法發現真正正確的 “Google Lens” 圖標,導致無法獲得修正語義誤解所需的學習信號。



GUI Grounding 的主要失敗模式: (a) 空間對齊失敗,(b) 語義對齊失敗

InfiGUI-G1:自適應探索策略優化(AEPO)

為了解決這一探索效率低下的問題,InfiGUI-G1 引入了AEPO(Adaptive Exploration Policy Optimization)框架。與傳統的單次回答生成不同,AEPO 旨在通過更廣泛且高效的探索來捕捉低概率但正確的選項。

AEPO 框架由三個協同工作的核心組件構成:

1.多答案生成機制(Multi-Answer Generation)傳統的 RL 方法通常只采樣一個動作,一旦模型 “固執己見” 地選錯,梯度的學習信號就會消失。AEPO 強制模型在一次前向傳遞中生成 N 個候選坐標點。這一機制迫使模型跳出單一的高置信度預測,去探索策略分布長尾中的可能性,從而大幅增加了發現正確答案(如上述例子中的 Google Lens)的概率。

2.自適應探索獎勵(Adaptive Exploration Reward, AER)僅僅生成多個答案是不夠的,如何評價這些答案的質量至關重要。研究團隊基于效率第一性原理(效率 = 效用 / 成本)設計了 AER 函數。

  • 動態激勵:如果模型在靠前的排名(Rank k)就找到了正確答案,給予高額獎勵;如果失敗,則給予較小的懲罰以鼓勵繼續探索。
  • 這種非線性的獎勵設計在失敗時鼓勵模型 “廣撒網”,在成功時引導模型追求 “快準狠”,實現了探索與利用的動態平衡。

3.共線懲罰(Collinear Penalty)為了防止模型通過生成近似直線的點來 “作弊”(簡單的線性掃描策略),研究引入了共線懲罰。如果生成的多個候選點在幾何上近似共線,將被視為低質量探索并受到嚴厲懲罰。這強制模型在語義空間而非單純的幾何空間中進行多樣化探索。



AEPO 與 Naive 強化學習基準方法的對比

實驗結果:小參數量實現性能越級

研究團隊在 MMBench-GUI、ScreenSpot-Pro、UI-Vision 等五個極具挑戰性的基準上對 InfiGUI-G1(3B 和 7B 版本)進行了全面評估。

1.綜合性能全面領先:在 MMBench-GUI 基準測試中,InfiGUI-G1-7B 在 Windows、iOS、Android 等多個平臺上的表現均刷新了開源模型的最佳成績。值得注意的是,InfiGUI-G1-7B 在部分指標上甚至優于參數量大得多的 Qwen2.5-VL-72B 和閉源模型 GPT-4o。

2.攻克高難度語義理解任務ScreenSpot-Pro 基準專門區分了文本類(Text)和圖標類(Icon)任務。結果顯示,InfiGUI-G1 在更依賴語義理解的 “圖標” 任務上提升尤為明顯。這直接證明了 AEPO 策略有效解決了語義對齊的瓶頸,讓模型真正 “看懂” 了抽象圖標背后的功能含義,而不僅僅是進行簡單的文本匹配。

3.讓 “不可學習” 變得 “可學習”為了驗證 AEPO 是否真的解決了探索難題,研究團隊將樣本按難度分為簡單、中等和困難。實驗發現,InfiGUI-G1 在 “困難” 樣本(即基座模型幾乎無法答對的樣本)上的提升最為巨大,相對 Naive RLVR 基線提升了超過60%。這意味著 AEPO 成功挖掘出了那些以往因缺乏探索而被模型 “放棄” 的長尾知識。



ScreenSpot-Pro 基準測試的性能對比

總結與展望

InfiGUI-G1 的成功表明,GUI 智能體的性能瓶頸不僅僅在于視覺識別能力,更在于如何通過有效的強化學習策略來解決語義對齊問題。通過引入自適應探索機制,InfiGUI-G1 以極高的數據效率和較小的模型規模,實現了超越大模型的 GUI Grounding 能力。這項工作為未來開發更通用、更智能的 GUI 交互助手提供了堅實的技術基礎。

目前,InfiGUI-G1 的代碼、模型權重及相關資源已在 GitHub 開源,歡迎社區進一步研究與使用。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
越扒越有!張雪峰去世早有預兆,他的3個不良愛好,或成催命符

越扒越有!張雪峰去世早有預兆,他的3個不良愛好,或成催命符

潮鹿逐夢
2026-03-26 11:24:44
4小時先后炸場!Lisa Jennie比基尼造型隔空battle,兩種性感封神

4小時先后炸場!Lisa Jennie比基尼造型隔空battle,兩種性感封神

橙星文娛
2026-03-27 13:31:39
郜林:往返高速費和油費就讓工資所剩無幾,小克是目標榜樣

郜林:往返高速費和油費就讓工資所剩無幾,小克是目標榜樣

懂球帝
2026-03-26 22:00:56
全世界沒料到,美國動作真快,沒踩中東坑,反而一招洗空30萬億債

全世界沒料到,美國動作真快,沒踩中東坑,反而一招洗空30萬億債

瀲滟晴方DAY
2026-03-26 22:46:22
開源作者把5個免費賬號拼成1個無限額度,AI公司還沒反應過來

開源作者把5個免費賬號拼成1個無限額度,AI公司還沒反應過來

報錯免疫體
2026-03-26 12:07:59
殯儀館燒尸人:一具遺體最少賣八千塊,年輕漂亮的女尸賣得更貴

殯儀館燒尸人:一具遺體最少賣八千塊,年輕漂亮的女尸賣得更貴

吳學華看天下
2024-08-15 14:45:07
他倆才是最牛岳父母,3個女兒全嫁百億富豪,一個比一個漂亮厲害

他倆才是最牛岳父母,3個女兒全嫁百億富豪,一個比一個漂亮厲害

白面書誏
2026-03-26 18:13:05
西媒:伊朗已允許與西班牙有關聯的船只通過霍爾木茲海峽,伊朗認為西班牙是一個遵守國際法的國家,愿意接受馬德里提出的任何(通行)請求

西媒:伊朗已允許與西班牙有關聯的船只通過霍爾木茲海峽,伊朗認為西班牙是一個遵守國際法的國家,愿意接受馬德里提出的任何(通行)請求

魯中晨報
2026-03-27 13:01:06
票房慘淡,引進片為何加速失去中國觀眾

票房慘淡,引進片為何加速失去中國觀眾

經濟觀察報
2026-03-25 16:05:24
克弩與庫里,差了些什么?

克弩與庫里,差了些什么?

張佳瑋寫字的地方
2026-03-27 14:35:23
79元太火!小米磁吸玩偶賣斷貨 官方承諾加快生產

79元太火!小米磁吸玩偶賣斷貨 官方承諾加快生產

快科技
2026-03-26 07:09:03
爆大冷!點球大戰決勝負,威爾士無緣世界杯,40歲哲科立大功

爆大冷!點球大戰決勝負,威爾士無緣世界杯,40歲哲科立大功

足球狗說
2026-03-27 06:50:25
80歲郭鳳蓮兩會發聲被網暴:農村老人163元養老金,欠的賬該清了

80歲郭鳳蓮兩會發聲被網暴:農村老人163元養老金,欠的賬該清了

今日搞笑分享
2026-03-27 12:35:44
曝張雪峰3段婚姻都是閃婚,前妻緬懷滿是惋惜,瘋狂健身疑為備孕

曝張雪峰3段婚姻都是閃婚,前妻緬懷滿是惋惜,瘋狂健身疑為備孕

古希臘掌管松餅的神
2026-03-25 12:00:46
“鳥面媽媽”王小妞:不聽勸阻生二胎,兒子遺傳其外貌,現如何

“鳥面媽媽”王小妞:不聽勸阻生二胎,兒子遺傳其外貌,現如何

觀察者海風
2026-03-24 23:04:30
美媒:若中國不償還百年前的債務,美國也將不承認欠華8600億美元

美媒:若中國不償還百年前的債務,美國也將不承認欠華8600億美元

文史達觀
2025-03-18 12:54:58
妻子升副局長跟我離婚,半年后我去開會,見她在門口等我2小時

妻子升副局長跟我離婚,半年后我去開會,見她在門口等我2小時

千秋文化
2026-03-25 21:49:57
央視發文,60歲釋永信再迎噩耗,被他害慘的4個明星也出了口惡氣

央視發文,60歲釋永信再迎噩耗,被他害慘的4個明星也出了口惡氣

阿傖說事
2026-03-25 07:11:23
杜月笙的識人術:只看對方的一個站姿,就能知道他是龍還是蟲

杜月笙的識人術:只看對方的一個站姿,就能知道他是龍還是蟲

千秋文化
2026-03-23 20:09:06
湖南師范大學臨床醫學院黨委書記袁友紅因突發疾病逝世,年僅56歲

湖南師范大學臨床醫學院黨委書記袁友紅因突發疾病逝世,年僅56歲

澎湃新聞
2026-03-27 10:20:26
2026-03-27 15:12:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12615文章數 142595關注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產力

頭條要聞

媒體:和張雪峰一樣 還有多位名人也因猝死驟然離世

頭條要聞

媒體:和張雪峰一樣 還有多位名人也因猝死驟然離世

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

張雪峰靈堂內景曝光,四周擺滿了鮮花

財經要聞

很反常!油價向上,黃金向下

汽車要聞

與眾08,金標大眾不能輸的一戰

態度原創

家居
藝術
旅游
房產
手機

家居要聞

傍海而居 靜觀蝴蝶海

藝術要聞

2025“殊相”——中國油畫學會創作研修作品展 | 作品選刊(一)

旅游要聞

船在花中行,人在畫中游!北小河游船4月3日首航

房產要聞

剛剛,海南樓市,官方數據發布!

手機要聞

榮耀龍蝦宇宙YOYO Claw今啟封測,可執行更多復雜系統級操作

無障礙瀏覽 進入關懷版