UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis

要約

大規模なビジョン言語モデルの最近の進歩は、デジタルデバイスの生産性を高めるために人間のような視覚認識能力を利用するグラフィカルユーザーインターフェイス(GUI)エージェントの開発を加速しています。
プラットフォームに依存し、実装のバリエーションに対して脆弱なGUIメタデータに基づいたアプローチと比較して、ビジョンベースのアプローチはより広範な適用性を提供します。
このビジョンベースのパラダイムでは、特に限られたパブリックトレーニングデータセットとリソース集約型のマニュアル命令データアノテーションにより、特定のスクリーンショットの対応する要素の位置にユーザー命令をマッピングするGUI命令の接地は、依然として重要な課題です。
この論文では、このタスクでは、要素とスクリーンの比率、不均衡な要素タイプ、暗黙の命令など、このタスクで未開拓の課題を掘り下げます。
これらの課題に対処するために、ヒトのアノテーターの代わりにGPT-4oを使用してさまざまな複雑な命令データセットを生成するために、大規模なデータ合成パイプラインUI-E2i-Synthを導入します。
さらに、多様な注釈の側面を組み込むことにより、既存のベンチマークの制限に対処するように設計された新しいGUI命令の接地ベンチマークUI-I2Eベンチを提案します。
合成されたデータで訓練されたモデルは、GUI命令の接地で優れたパフォーマンスを実現し、提案されたデータ合成パイプラインの進歩を示しています。
提案されたベンチマークは、広範な分析を伴い、GUIの接地における将来の研究のための実用的な洞察を提供します。
https://colmon46.github.io/i2e-bench-leaderboard/で対応するアーティファクトをリリースします。

要約(オリジナル)

Recent advancements in Large Vision-Language Models are accelerating the development of Graphical User Interface (GUI) agents that utilize human-like vision perception capabilities to enhance productivity on digital devices. Compared to approaches predicated on GUI metadata, which are platform-dependent and vulnerable to implementation variations, vision-based approaches offer broader applicability. In this vision-based paradigm, the GUI instruction grounding, which maps user instruction to the location of corresponding element on the given screenshot, remains a critical challenge, particularly due to limited public training dataset and resource-intensive manual instruction data annotation. In this paper, we delve into unexplored challenges in this task including element-to-screen ratio, unbalanced element type, and implicit instruction. To address these challenges, we introduce a large-scale data synthesis pipeline UI-E2I-Synth for generating varying complex instruction datasets using GPT-4o instead of human annotators. Furthermore, we propose a new GUI instruction grounding benchmark UI-I2E-Bench, which is designed to address the limitations of existing benchmarks by incorporating diverse annotation aspects. Our model, trained on the synthesized data, achieves superior performance in GUI instruction grounding, demonstrating the advancements of proposed data synthesis pipeline. The proposed benchmark, accompanied by extensive analyses, provides practical insights for future research in GUI grounding. We will release corresponding artifacts at https://colmon46.github.io/i2e-bench-leaderboard/ .

arxiv情報

著者 Xinyi Liu,Xiaoyi Zhang,Ziyun Zhang,Yan Lu
発行日 2025-04-16 02:29:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.HC パーマリンク