要約
VLMを搭載したGUIエージェントを構築する際の主な課題の1つは、視覚的グラウンディング、すなわち、視覚的コンテンツとテキストプランの両方に基づいて、アクション実行のために適切な画面領域を特定することである。ほとんどの既存の研究は、これをテキストベースの座標生成タスクとして定式化している。しかしながら、これらのアプローチは、空間的意味的整合が弱い、曖昧な監督対象を扱えない、画面座標の密な性質と、Vision Transformersのようなモデルによって抽出された視覚的特徴の粗いパッチレベルの粒度との間のミスマッチ、といったいくつかの限界に悩まされている。本論文では、座標フリーのGUIグラウンディングのためのVLMベースの手法であるGUI-Actorを提案する。その中核として、GUI-Actorはアテンションベースのアクションヘッドを導入し、専用のトークンを全ての関連する視覚パッチトークンと整合させることを学習し、モデルが1回のフォワードパスで1つ以上のアクション領域を提案することを可能にする。さらに、アクション実行のために提案された候補から最も妥当なアクション領域を評価・選択するための接地検証器を設計する。広範な実験により、GUI-Actorは複数のGUIアクショングラウンディングベンチマークにおいて、未知の画面解像度やレイアウトに対する汎化が改善され、先行する最先端の手法を凌駕することが示された。特に、GUI-Actor-7BはScreenSpot-ProにおいてUI-TARS-72B(38.1)を上回り、Qwen2-VLで40.7、Qwen2.5-VLで44.6を達成した。さらに、検証機を組み込むことで、VLMバックボーンを凍結したまま、新たに導入したアクションヘッド(7Bモデルで約100Mのパラメータ)のみを微調整することで、従来の最先端モデルに匹敵する性能を達成できることがわかり、GUI-Actorが、その汎用的な強みを損なうことなく、基礎となるVLMに効果的な接地能力を付与できることが浮き彫りになった。
要約(オリジナル)
One of the principal challenges in building VLM-powered GUI agents is visual grounding, i.e., localizing the appropriate screen region for action execution based on both the visual content and the textual plans. Most existing work formulates this as a text-based coordinate generation task. However, these approaches suffer from several limitations: weak spatial-semantic alignment, inability to handle ambiguous supervision targets, and a mismatch between the dense nature of screen coordinates and the coarse, patch-level granularity of visual features extracted by models like Vision Transformers. In this paper, we propose GUI-Actor, a VLM-based method for coordinate-free GUI grounding. At its core, GUI-Actor introduces an attention-based action head that learns to align a dedicated token with all relevant visual patch tokens, enabling the model to propose one or more action regions in a single forward pass. In line with this, we further design a grounding verifier to evaluate and select the most plausible action region from the candidates proposed for action execution. Extensive experiments show that GUI-Actor outperforms prior state-of-the-art methods on multiple GUI action grounding benchmarks, with improved generalization to unseen screen resolutions and layouts. Notably, GUI-Actor-7B even surpasses UI-TARS-72B (38.1) on ScreenSpot-Pro, achieving scores of 40.7 with Qwen2-VL and 44.6 with Qwen2.5-VL as backbones. Furthermore, by incorporating the verifier, we find that fine-tuning only the newly introduced action head (~100M parameters for 7B model) while keeping the VLM backbone frozen is sufficient to achieve performance comparable to previous state-of-the-art models, highlighting that GUI-Actor can endow the underlying VLM with effective grounding capabilities without compromising its general-purpose strengths.
arxiv情報
著者 |
Qianhui Wu,Kanzhi Cheng,Rui Yang,Chaoyun Zhang,Jianwei Yang,Huiqiang Jiang,Jian Mu,Baolin Peng,Bo Qiao,Reuben Tan,Si Qin,Lars Liden,Qingwei Lin,Huan Zhang,Tong Zhang,Jianbing Zhang,Dongmei Zhang,Jianfeng Gao |
発行日 |
2025-06-03 17:59:08+00:00 |
arxivサイト |
arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, DeepL