Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents

要約

マルチモーダル大手言語モデル(MLLMS)は、グラフィカルユーザーインターフェイス(GUI)エージェントの機能を変換し、さまざまなプラットフォームで制御されたシミュレーションから複雑な実際のアプリケーションへの移行を促進しています。
ただし、これらのエージェントの有効性は、接地能力の堅牢性にかかっています。
現在のGUIエージェントは、主にHTMLやアクセシビリティツリーなどのテキストベースの表現を利用しています。これは、その有用性にもかかわらず、ノイズ、不完全性、計算オーバーヘッドの増加を導入します。
この論文では、環境を完全に視覚的に知覚し、GUIでピクセルレベルの操作を直接実行するGUIエージェントの人間のような実施形態を提唱します。
重要なのは、異なるプラットフォームにわたってGUIの座標にGUI要素の式を正確にマッピングできる視覚的な接地モデルです。
Webベースの合成データとLlavaアーキテクチャのわずかな適応を含む簡単なレシピは、そのような視覚的接地モデルのトレーニングに驚くほど効果的であることを示しています。
これまでにGUI視覚接地の最大のデータセットを収集し、1.3mのスクリーンショットを超える10m GUI要素とその参照式を含む最大のデータセットを収集し、GUIエージェントの強力な普遍的な視覚的接地モデルであるUgroundを訓練するために使用します。
3つのカテゴリ(接地、オフラインエージェント、およびオンラインエージェント)にまたがる6つのベンチマークの経験的結果は、1)UgroundがGUIエージェントの既存の視覚接地モデルを実質的に優れていることを示しています。
これらの結果は、人間と同じようにデジタルの世界をナビゲートするGUIエージェントの実現可能性と約束に対する強力なサポートを提供します。

要約(オリジナル)

Multimodal large language models (MLLMs) are transforming the capabilities of graphical user interface (GUI) agents, facilitating their transition from controlled simulations to complex, real-world applications across various platforms. However, the effectiveness of these agents hinges on the robustness of their grounding capability. Current GUI agents predominantly utilize text-based representations such as HTML or accessibility trees, which, despite their utility, often introduce noise, incompleteness, and increased computational overhead. In this paper, we advocate a human-like embodiment for GUI agents that perceive the environment entirely visually and directly perform pixel-level operations on the GUI. The key is visual grounding models that can accurately map diverse referring expressions of GUI elements to their coordinates on the GUI across different platforms. We show that a simple recipe, which includes web-based synthetic data and slight adaptation of the LLaVA architecture, is surprisingly effective for training such visual grounding models. We collect the largest dataset for GUI visual grounding so far, containing 10M GUI elements and their referring expressions over 1.3M screenshots, and use it to train UGround, a strong universal visual grounding model for GUI agents. Empirical results on six benchmarks spanning three categories (grounding, offline agent, and online agent) show that 1) UGround substantially outperforms existing visual grounding models for GUI agents, by up to 20% absolute, and 2) agents with UGround outperform state-of-the-art agents, despite the fact that existing agents use additional text-based input while ours only uses visual perception. These results provide strong support for the feasibility and promises of GUI agents that navigate the digital world as humans do.

arxiv情報

著者 Boyu Gou,Ruohan Wang,Boyuan Zheng,Yanan Xie,Cheng Chang,Yiheng Shu,Huan Sun,Yu Su
発行日 2025-06-17 15:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク