要約
VLMを搭載したGUIエージェントを構築する際の主な課題の1つは、視覚的グラウンディング、すなわち、視覚的コンテンツとテキストプランの両方に基づいて、アクション実行のために適切な画面領域を特定することである。ほとんどの既存の研究は、これをテキストベースの座標生成タスクとして定式化している。しかしながら、これらのアプローチは、空間的意味的整合が弱い、曖昧な監督対象を扱えない、画面座標の密な性質と、Vision Transformersのようなモデルによって抽出された視覚的特徴の粗いパッチレベルの粒度との間のミスマッチ、といったいくつかの限界に悩まされている。本論文では、座標フリーのGUIグラウンディングのためのVLMベースの手法であるGUI-Actorを提案する。その中核として、GUI-Actorはアテンションベースのアクションヘッドを導入し、専用の
要約(オリジナル)
One of the principal challenges in building VLM-powered GUI agents is visual grounding, i.e., localizing the appropriate screen region for action execution based on both the visual content and the textual plans. Most existing work formulates this as a text-based coordinate generation task. However, these approaches suffer from several limitations: weak spatial-semantic alignment, inability to handle ambiguous supervision targets, and a mismatch between the dense nature of screen coordinates and the coarse, patch-level granularity of visual features extracted by models like Vision Transformers. In this paper, we propose GUI-Actor, a VLM-based method for coordinate-free GUI grounding. At its core, GUI-Actor introduces an attention-based action head that learns to align a dedicated
arxiv情報
著者 | Qianhui Wu,Kanzhi Cheng,Rui Yang,Chaoyun Zhang,Jianwei Yang,Huiqiang Jiang,Jian Mu,Baolin Peng,Bo Qiao,Reuben Tan,Si Qin,Lars Liden,Qingwei Lin,Huan Zhang,Tong Zhang,Jianbing Zhang,Dongmei Zhang,Jianfeng Gao |
発行日 | 2025-06-03 17:59:08+00:00 |
arxivサイト | arxiv_id(pdf) |