網易首頁 > 網易號 > 正文申請入駐

AAAI 2026 Oral｜InfiGUI-G1模型來了，刷新GUI Grounding SOTA

2026-01-05 14:43:58　來源: 機器之心Pro

河北舉報

分享至

隨著多模態大語言模型（MLLM）的飛速發展，能夠像人類一樣通過視覺輸入操作圖形用戶界面（GUI）的智能體（Agent）正逐漸成為現實。然而，在通往通用計算機控制的道路上，如何讓模型精準地將自然語言指令對應到屏幕上的具體元素 —— 即 GUI Grounding 任務，依然是一大難題。

現有的方法，特別是基于驗證獎勵的強化學習（RLVR），雖然在提升 “指得準”（空間對齊）方面表現出色，卻往往在 “指得對”（語義對齊）上遭遇瓶頸。模型常常陷入 “自信陷阱”，在復雜的語義場景下無法通過有效探索找到正確的功能圖標。

針對這一痛點，來自浙江大學、香港理工大學及 InfiX.ai 的研究團隊提出了一種全新的自適應探索策略優化框架（AEPO），并推出了InfiGUI-G1系列模型。該模型通過多答案生成與自適應獎勵機制，徹底打破了傳統 RLVR 的探索瓶頸。僅憑 3B 和 7B 的參數量，InfiGUI-G1 便在多個高難度 GUI 基準測試中刷新了 SOTA，部分指標甚至大幅超越了閉源模型。

本文將深入介紹這項被 AAAI 2026 接收為 Oral 的工作，解讀其如何通過 “學會探索” 來實現更精準的 GUI 語義理解。

論文標題：InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
論文鏈接：https://arxiv.org/abs/2508.05731
代碼鏈接：https://github.com/InfiXAI/InfiGUI-G1

從 “空間對齊” 到 “語義對齊”：被忽視的探索瓶頸

GUI Grounding 任務的核心是將自然語言指令（如 “打開相機”）映射到屏幕上的特定元素坐標。研究團隊指出，這一任務可以解構為兩個正交的維度：

1. 空間對齊（Spatial Alignment）：能否精確地定位到元素（即 “指得準”）。

2. 語義對齊（Semantic Alignment）：能否識別出功能正確的元素（即 “指得對”）。

現有的 RLVR 方法（如 Naive RLVR）雖然能通過優化坐標生成來提升定位精度，但在面對語義模糊或復雜的指令時卻顯得力不從心。

例如，當指令是 “使用相機搜索物體” 時，屏幕上可能同時存在普通的 “相機應用” 和具有視覺搜索功能的 “Google Lens”。缺乏深度語義理解的模型往往會自信地死磕 “相機應用” 圖標。由于傳統 RL 依賴當前策略采樣，模型會不斷重復這個高置信度的錯誤，陷入“自信陷阱”（Confidence Trap），從而無法發現真正正確的 “Google Lens” 圖標，導致無法獲得修正語義誤解所需的學習信號。

GUI Grounding 的主要失敗模式： (a) 空間對齊失敗，(b) 語義對齊失敗

InfiGUI-G1：自適應探索策略優化（AEPO）

為了解決這一探索效率低下的問題，InfiGUI-G1 引入了AEPO（Adaptive Exploration Policy Optimization）框架。與傳統的單次回答生成不同，AEPO 旨在通過更廣泛且高效的探索來捕捉低概率但正確的選項。

AEPO 框架由三個協同工作的核心組件構成：

1.多答案生成機制（Multi-Answer Generation）傳統的 RL 方法通常只采樣一個動作，一旦模型 “固執己見” 地選錯，梯度的學習信號就會消失。AEPO 強制模型在一次前向傳遞中生成 N 個候選坐標點。這一機制迫使模型跳出單一的高置信度預測，去探索策略分布長尾中的可能性，從而大幅增加了發現正確答案（如上述例子中的 Google Lens）的概率。

2.自適應探索獎勵（Adaptive Exploration Reward, AER）僅僅生成多個答案是不夠的，如何評價這些答案的質量至關重要。研究團隊基于效率第一性原理（效率 = 效用 / 成本）設計了 AER 函數。

動態激勵：如果模型在靠前的排名（Rank k）就找到了正確答案，給予高額獎勵；如果失敗，則給予較小的懲罰以鼓勵繼續探索。
這種非線性的獎勵設計在失敗時鼓勵模型 “廣撒網”，在成功時引導模型追求 “快準狠”，實現了探索與利用的動態平衡。

3.共線懲罰（Collinear Penalty）為了防止模型通過生成近似直線的點來 “作弊”（簡單的線性掃描策略），研究引入了共線懲罰。如果生成的多個候選點在幾何上近似共線，將被視為低質量探索并受到嚴厲懲罰。這強制模型在語義空間而非單純的幾何空間中進行多樣化探索。

AEPO 與 Naive 強化學習基準方法的對比

實驗結果：小參數量實現性能越級

研究團隊在 MMBench-GUI、ScreenSpot-Pro、UI-Vision 等五個極具挑戰性的基準上對 InfiGUI-G1（3B 和 7B 版本）進行了全面評估。

1.綜合性能全面領先：在 MMBench-GUI 基準測試中，InfiGUI-G1-7B 在 Windows、iOS、Android 等多個平臺上的表現均刷新了開源模型的最佳成績。值得注意的是，InfiGUI-G1-7B 在部分指標上甚至優于參數量大得多的 Qwen2.5-VL-72B 和閉源模型 GPT-4o。

2.攻克高難度語義理解任務ScreenSpot-Pro 基準專門區分了文本類（Text）和圖標類（Icon）任務。結果顯示，InfiGUI-G1 在更依賴語義理解的 “圖標” 任務上提升尤為明顯。這直接證明了 AEPO 策略有效解決了語義對齊的瓶頸，讓模型真正 “看懂” 了抽象圖標背后的功能含義，而不僅僅是進行簡單的文本匹配。

3.讓 “不可學習” 變得 “可學習”為了驗證 AEPO 是否真的解決了探索難題，研究團隊將樣本按難度分為簡單、中等和困難。實驗發現，InfiGUI-G1 在 “困難” 樣本（即基座模型幾乎無法答對的樣本）上的提升最為巨大，相對 Naive RLVR 基線提升了超過60%。這意味著 AEPO 成功挖掘出了那些以往因缺乏探索而被模型 “放棄” 的長尾知識。

ScreenSpot-Pro 基準測試的性能對比

總結與展望

InfiGUI-G1 的成功表明，GUI 智能體的性能瓶頸不僅僅在于視覺識別能力，更在于如何通過有效的強化學習策略來解決語義對齊問題。通過引入自適應探索機制，InfiGUI-G1 以極高的數據效率和較小的模型規模，實現了超越大模型的 GUI Grounding 能力。這項工作為未來開發更通用、更智能的 GUI 交互助手提供了堅實的技術基礎。

目前，InfiGUI-G1 的代碼、模型權重及相關資源已在 GitHub 開源，歡迎社區進一步研究與使用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.