要約
グラフィカルユーザーインターフェイス(GUI)エージェントは、Vision-Language Models(VLMS)を搭載しており、人間のようなコンピューター制御機能を実証しています。
デジタルオートメーションの進歩においてそれらの有用性にもかかわらず、重要なボトルネックは続きます:トレーニング用の高品質の軌跡データを収集します。
このようなデータを収集するための一般的な慣行は、リソース集約的またはデータ品質を保証できない事前に定義されたタスクを実行することにより、人間の監督または合成データ生成に依存しています。
さらに、これらの方法は、限られたデータの多様性と合成データと現実世界の環境間の重要なギャップに悩まされています。
これらの課題に対処するために、従来の軌跡収集プロセスを逆転させる新しいGUIデータ合成パイプラインであるOS-Genesisを提案します。
事前に定義されたタスクに依存する代わりに、OS-Genesisにより、エージェントはまず環境を認識し、段階的な相互作用を実行し、次に遡及的に高品質のタスクを導き出して、軌道レベルの探索を可能にします。
次に、生成された軌跡の品質を確保するために、軌跡報酬モデルが採用されます。
OSジェネシスを備えたGUIエージェントのトレーニングにより、非常に挑戦的なオンラインベンチマークでのパフォーマンスが大幅に向上することが実証されています。
詳細な分析では、既存の合成方法と比較して、Os-Genesisの効率とその優れたデータの品質と多様性をさらに検証します。
コード、データ、およびチェックポイントは、https://qiushisun.github.io/os-genesis-home/で入手できます。
要約(オリジナル)
Graphical User Interface (GUI) agents powered by Vision-Language Models (VLMs) have demonstrated human-like computer control capability. Despite their utility in advancing digital automation, a critical bottleneck persists: collecting high-quality trajectory data for training. Common practices for collecting such data rely on human supervision or synthetic data generation through executing pre-defined tasks, which are either resource-intensive or unable to guarantee data quality. Moreover, these methods suffer from limited data diversity and significant gaps between synthetic data and real-world environments. To address these challenges, we propose OS-Genesis, a novel GUI data synthesis pipeline that reverses the conventional trajectory collection process. Instead of relying on pre-defined tasks, OS-Genesis enables agents first to perceive environments and perform step-wise interactions, then retrospectively derive high-quality tasks to enable trajectory-level exploration. A trajectory reward model is then employed to ensure the quality of the generated trajectories. We demonstrate that training GUI agents with OS-Genesis significantly improves their performance on highly challenging online benchmarks. In-depth analysis further validates OS-Genesis’s efficiency and its superior data quality and diversity compared to existing synthesis methods. Our codes, data, and checkpoints are available at https://qiushisun.github.io/OS-Genesis-Home/.
arxiv情報
著者 | Qiushi Sun,Kanzhi Cheng,Zichen Ding,Chuanyang Jin,Yian Wang,Fangzhi Xu,Zhenyu Wu,Chengyou Jia,Liheng Chen,Zhoumianze Liu,Ben Kao,Guohao Li,Junxian He,Yu Qiao,Zhiyong Wu |
発行日 | 2025-04-30 08:23:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google