OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

要約

ビジョン言語モデル (VLM) を活用したグラフィカル ユーザー インターフェイス (GUI) エージェントは、人間のようなコンピューター制御機能を実証しました。
デジタルオートメーションの進歩におけるそれらの有用性にもかかわらず、トレーニング用に高品質の軌道データを収集するという重大なボトルネックが依然として存在します。
このようなデータを収集するための一般的な手法は、人間による監視や、事前定義されたタスクの実行による合成データ生成に依存していますが、これらはリソースを大量に消費するか、データ品質を保証できません。
さらに、これらの方法には、データの多様性が限られており、合成データと現実世界の環境の間に大きなギャップがあるという問題があります。
これらの課題に対処するために、従来の軌跡収集プロセスを逆転させる新しい GUI データ合成パイプラインである OS-Genesis を提案します。
OS-Genesis を使用すると、事前定義されたタスクに依存するのではなく、エージェントがまず環境を認識して段階的な対話を実行し、その後、遡及的に高品質のタスクを導出し、軌道レベルの探索を可能にします。
次に、軌道報酬モデルを使用して、生成された軌道の品質を保証します。
OS-Genesis を使用して GUI エージェントをトレーニングすると、非常に困難なオンライン ベンチマークでのパフォーマンスが大幅に向上することを実証します。
詳細な分析により、既存の合成方法と比較して、OS-Genesis の効率、優れたデータ品質と多様性がさらに検証されます。
コード、データ、チェックポイントは、\href{https://qiushisun.github.io/OS-Genesis-Home/}{OS-Genesis Homepage} で入手できます。

要約(オリジナル)

Graphical User Interface (GUI) agents powered by Vision-Language Models (VLMs) have demonstrated human-like computer control capability. Despite their utility in advancing digital automation, a critical bottleneck persists: collecting high-quality trajectory data for training. Common practices for collecting such data rely on human supervision or synthetic data generation through executing pre-defined tasks, which are either resource-intensive or unable to guarantee data quality. Moreover, these methods suffer from limited data diversity and significant gaps between synthetic data and real-world environments. To address these challenges, we propose OS-Genesis, a novel GUI data synthesis pipeline that reverses the conventional trajectory collection process. Instead of relying on pre-defined tasks, OS-Genesis enables agents first to perceive environments and perform step-wise interactions, then retrospectively derive high-quality tasks to enable trajectory-level exploration. A trajectory reward model is then employed to ensure the quality of the generated trajectories. We demonstrate that training GUI agents with OS-Genesis significantly improves their performance on highly challenging online benchmarks. In-depth analysis further validates OS-Genesis’s efficiency and its superior data quality and diversity compared to existing synthesis methods. Our codes, data, and checkpoints are available at \href{https://qiushisun.github.io/OS-Genesis-Home/}{OS-Genesis Homepage}.

arxiv情報

著者 Qiushi Sun,Kanzhi Cheng,Zichen Ding,Chuanyang Jin,Yian Wang,Fangzhi Xu,Zhenyu Wu,Chengyou Jia,Liheng Chen,Zhoumianze Liu,Ben Kao,Guohao Li,Junxian He,Yu Qiao,Zhiyong Wu
発行日 2024-12-27 16:21:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC パーマリンク