要約
グラフィカル ユーザー インターフェイス (GUI) は人間とコンピューターの対話に不可欠ですが、視覚環境の複雑さと多様性により、GUI タスクの自動化は依然として困難です。
既存のアプローチは、多くの場合、GUI のテキスト表現に依存しており、一般化、効率、およびスケーラビリティに制限が生じます。
このペーパーでは、さまざまなプラットフォームで動作する自律型 GUI エージェント用の統合された純粋なビジョンベースのフレームワークである Aguvis を紹介します。
私たちのアプローチは、画像ベースの観察と視覚要素に対する自然言語による基礎的な指示を活用し、一貫したアクション スペースを採用してクロスプラットフォームの一般化を保証します。
これまでの研究の限界に対処するために、モデル内に明示的な計画と推論を統合し、複雑なデジタル環境を自律的にナビゲートして対話する機能を強化しました。
マルチモーダル推論とグラウンディングを組み込んだ GUI エージェントの軌跡の大規模なデータセットを構築し、最初に一般的な GUI グラウンディングに焦点を当て、次に計画と推論を続ける 2 段階のトレーニング パイプラインを採用します。
包括的な実験を通じて、Aguvis がオフラインと現実世界のオンライン シナリオの両方で以前の最先端の手法を上回っていることを実証し、私たちの知る限り、他のユーザーと協力することなく独立してタスクを実行できる初の完全自律型の純粋なビジョン GUI エージェントを実現しました。
外部のクローズドソースモデル。
https://aguvis-project.github.io/ で将来の研究を促進するために、すべてのデータセット、モデル、トレーニング レシピをオープンソース化しました。
要約(オリジナル)
Graphical User Interfaces (GUIs) are critical to human-computer interaction, yet automating GUI tasks remains challenging due to the complexity and variability of visual environments. Existing approaches often rely on textual representations of GUIs, which introduce limitations in generalization, efficiency, and scalability. In this paper, we introduce Aguvis, a unified pure vision-based framework for autonomous GUI agents that operates across various platforms. Our approach leverages image-based observations, and grounding instructions in natural language to visual elements, and employs a consistent action space to ensure cross-platform generalization. To address the limitations of previous work, we integrate explicit planning and reasoning within the model, enhancing its ability to autonomously navigate and interact with complex digital environments. We construct a large-scale dataset of GUI agent trajectories, incorporating multimodal reasoning and grounding, and employ a two-stage training pipeline that first focuses on general GUI grounding, followed by planning and reasoning. Through comprehensive experiments, we demonstrate that Aguvis surpasses previous state-of-the-art methods in both offline and real-world online scenarios, achieving, to our knowledge, the first fully autonomous pure vision GUI agent capable of performing tasks independently without collaboration with external closed-source models. We open-sourced all datasets, models, and training recipes to facilitate future research at https://aguvis-project.github.io/.
arxiv情報
著者 | Yiheng Xu,Zekun Wang,Junli Wang,Dunjie Lu,Tianbao Xie,Amrita Saha,Doyen Sahoo,Tao Yu,Caiming Xiong |
発行日 | 2024-12-05 18:58:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google