OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis


ビジョン言語モデル (VLM) を活用したグラフィカル ユーザー インターフェイス (GUI) エージェントは、人間のようなコンピューター制御機能を実証しました。
これらの課題に対処するために、従来の軌跡収集プロセスを逆転させる新しい GUI データ合成パイプラインである OS-Genesis を提案します。
OS-Genesis を使用すると、事前定義されたタスクに依存するのではなく、エージェントがまず環境を認識して段階的な対話を実行し、その後、遡及的に高品質のタスクを導出し、軌道レベルの探索を可能にします。
OS-Genesis を使用して GUI エージェントをトレーニングすると、非常に困難なオンライン ベンチマークでのパフォーマンスが大幅に向上することを実証します。
詳細な分析により、既存の合成方法と比較して、OS-Genesis の効率、優れたデータ品質と多様性がさらに検証されます。
コード、データ、チェックポイントは、\href{https://qiushisun.github.io/OS-Genesis-Home/}{OS-Genesis Homepage} で入手できます。


Graphical User Interface (GUI) agents powered by Vision-Language Models (VLMs) have demonstrated human-like computer control capability. Despite their utility in advancing digital automation, a critical bottleneck persists: collecting high-quality trajectory data for training. Common practices for collecting such data rely on human supervision or synthetic data generation through executing pre-defined tasks, which are either resource-intensive or unable to guarantee data quality. Moreover, these methods suffer from limited data diversity and significant gaps between synthetic data and real-world environments. To address these challenges, we propose OS-Genesis, a novel GUI data synthesis pipeline that reverses the conventional trajectory collection process. Instead of relying on pre-defined tasks, OS-Genesis enables agents first to perceive environments and perform step-wise interactions, then retrospectively derive high-quality tasks to enable trajectory-level exploration. A trajectory reward model is then employed to ensure the quality of the generated trajectories. We demonstrate that training GUI agents with OS-Genesis significantly improves their performance on highly challenging online benchmarks. In-depth analysis further validates OS-Genesis’s efficiency and its superior data quality and diversity compared to existing synthesis methods. Our codes, data, and checkpoints are available at \href{https://qiushisun.github.io/OS-Genesis-Home/}{OS-Genesis Homepage}.


著者 Qiushi Sun,Kanzhi Cheng,Zichen Ding,Chuanyang Jin,Yian Wang,Fangzhi Xu,Zhenyu Wu,Chengyou Jia,Liheng Chen,Zhoumianze Liu,Ben Kao,Guohao Li,Junxian He,Yu Qiao,Zhiyong Wu
発行日 2024-12-27 16:21:58+00:00
