AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials

要約

グラフィカル ユーザー インターフェイス (GUI) エージェントは、Web アプリケーションからデスクトップ ソフトウェアに至るまで、多様なデジタル環境にわたる複雑なタスクを自動化する大きな可能性を秘めています。
しかし、そのようなエージェントの開発は、効果的なトレーニングに必要な高品質の複数ステップの軌道データが不足しているために妨げられています。
既存のアプローチは、高価で労働集約的な人間によるアノテーションに依存しているため、大規模には持続不可能です。
この課題に対処するために、Web チュートリアルを活用して高品質の GUI エージェントの軌跡を生成するスケーラブルなデータ合成パイプラインである AgentTrek を提案します。
私たちの方法では、インターネットからチュートリアルのようなテキストを自動的に収集し、段階的な指示を含むタスク目標に変換し、視覚言語モデル エージェントを使用して実際のデジタル環境での実行をシミュレートします。
VLM ベースのエバリュエーターは、生成された軌道の正確さを保証します。
これらの合成された軌道を使用して GUI エージェントをトレーニングすると、現在のモデルに比べてグラウンディングと計画のパフォーマンスが大幅に向上することを実証します。
さらに、私たちのアプローチは、従来の人によるアノテーション方法と比較してコスト効率が高くなります。
この研究は、大規模な GUI エージェント トレーニングの実行可能な戦略として、Web チュートリアルを使用したガイド付き再生の可能性を強調し、より有能で自律的なデジタル エージェントへの道を切り開きます。

要約(オリジナル)

Graphical User Interface (GUI) agents hold great potential for automating complex tasks across diverse digital environments, from web applications to desktop software. However, the development of such agents is hindered by the lack of high-quality, multi-step trajectory data required for effective training. Existing approaches rely on expensive and labor-intensive human annotation, making them unsustainable at scale. To address this challenge, we propose AgentTrek, a scalable data synthesis pipeline that generates high-quality GUI agent trajectories by leveraging web tutorials. Our method automatically gathers tutorial-like texts from the internet, transforms them into task goals with step-by-step instructions, and employs a visual-language model agent to simulate their execution in a real digital environment. A VLM-based evaluator ensures the correctness of the generated trajectories. We demonstrate that training GUI agents with these synthesized trajectories significantly improves their grounding and planning performance over the current models. Moreover, our approach is more cost-efficient compared to traditional human annotation methods. This work underscores the potential of guided replay with web tutorials as a viable strategy for large-scale GUI agent training, paving the way for more capable and autonomous digital agents.

arxiv情報

著者 Yiheng Xu,Dunjie Lu,Zhennan Shen,Junli Wang,Zekun Wang,Yuchen Mao,Caiming Xiong,Tao Yu
発行日 2024-12-12 18:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク