Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

要約

グラフィカルユーザーインターフェイス(GUI)の接地、グラフィカルユーザーインターフェイス上の特定のアクションに自然言語の指示をマッピングする機能は、コンピューター使用エージェント開発における重要なボトルネックのままです。
現在のベンチマークは、ソフトウェアの常識、レイアウトの理解、微細な操作能力を必要とする現実世界の相互作用の複雑さをキャプチャすることができない、短い参照表現として接地タスクを過度に単純化します。
これらの制限に対処するために、テキストマッチング、要素認識、レイアウト理解、正確な操作など、多様なタスクタイプにわたって564の細かく注釈付きサンプルを含む包括的なベンチマークであるOsworld-Gを紹介します。
さらに、タスクのマルチパース視点デカップリングを通じて400万の例を含む最大のコンピューター使用接地データセットジェダイを合成およびリリースします。
Jediで訓練されたマルチスケールモデルは、Screenspot-V2、Screenspot-Pro、およびOsworld-Gで既存のアプローチを上回ることにより、その有効性を実証しています。
さらに、ジェダイとの接地を改善すると、複雑なコンピュータータスク上の一般的な基礎モデルのエージェント機能が直接強化され、OSWorldの5%から27%に改善することが示されています。
詳細なアブレーション研究を通じて、接地性能に貢献する重要な要因を特定し、さまざまなインターフェイス要素の特殊なデータを組み合わせることで、新しいインターフェイスに合成一般化が可能になることを確認します。
すべてのベンチマーク、データ、チェックポイント、およびコードはオープンソースで、https://osworld-grounding.github.ioで入手できます。

要約(オリジナル)

Graphical user interface (GUI) grounding, the ability to map natural language instructions to specific actions on graphical user interfaces, remains a critical bottleneck in computer use agent development. Current benchmarks oversimplify grounding tasks as short referring expressions, failing to capture the complexity of real-world interactions that require software commonsense, layout understanding, and fine-grained manipulation capabilities. To address these limitations, we introduce OSWorld-G, a comprehensive benchmark comprising 564 finely annotated samples across diverse task types including text matching, element recognition, layout understanding, and precise manipulation. Additionally, we synthesize and release the largest computer use grounding dataset Jedi, which contains 4 million examples through multi-perspective decoupling of tasks. Our multi-scale models trained on Jedi demonstrate its effectiveness by outperforming existing approaches on ScreenSpot-v2, ScreenSpot-Pro, and our OSWorld-G. Furthermore, we demonstrate that improved grounding with Jedi directly enhances agentic capabilities of general foundation models on complex computer tasks, improving from 5% to 27% on OSWorld. Through detailed ablation studies, we identify key factors contributing to grounding performance and verify that combining specialized data for different interface elements enables compositional generalization to novel interfaces. All benchmark, data, checkpoints, and code are open-sourced and available at https://osworld-grounding.github.io.

arxiv情報

著者 Tianbao Xie,Jiaqi Deng,Xiaochuan Li,Junlin Yang,Haoyuan Wu,Jixuan Chen,Wenjing Hu,Xinyuan Wang,Yuhui Xu,Zekun Wang,Yiheng Xu,Junli Wang,Doyen Sahoo,Tao Yu,Caiming Xiong
発行日 2025-05-19 15:09:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC パーマリンク