UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents

要約

このペーパーでは、GUIエージェントの2つの重要な課題に対処する自己改善フレームワークであるU-Genieを紹介します。軌跡の結果の検証は挑戦的であり、高品質のトレーニングデータはスケーラブルではありません。
これらの課題は、それぞれ報酬モデルと自己改善パイプラインによって対処されます。
報酬モデルであるUI-Genie-RMは、歴史的コンテキストを効率的にプロセスし、アクションレベルとタスクレベルの報酬を統一する画像テキストインターリーブアーキテクチャを備えています。
UI-Genie-RMのトレーニングを支援するために、ルールベースの検証、制御された軌跡の腐敗、硬性負のマイニングなど、意図的に設計されたデータ生成戦略を開発します。
2番目の課題に対処するために、自己改善パイプラインは、動的環境での報酬ガイド付きの探索と結果の検証を通じてエージェントモデルと報酬モデルの両方を強化することにより、ソルブ可能な複雑なGUIタスクを徐々に拡張します。
モデルをトレーニングするために、UI-Genie-RM-517KおよびUI-Genie-Agent-16Kを生成し、GUIエージェント向けの最初の報酬固有のデータセットを確立しながら、手動注釈なしで高品質の合成軌跡ジェネレーションを実証します。
実験結果は、UIジェニーが3世代のデータモデル自己改善を伴う複数のGUIエージェントベンチマークで最先端のパフォーマンスを達成することを示しています。
https://github.com/euphoria16/ui-genieでさらなる調査を促進するために、完全なフレームワークの実装と生成データセットを生成しました。

要約(オリジナル)

In this paper, we introduce UI-Genie, a self-improving framework addressing two key challenges in GUI agents: verification of trajectory outcome is challenging and high-quality training data are not scalable. These challenges are addressed by a reward model and a self-improving pipeline, respectively. The reward model, UI-Genie-RM, features an image-text interleaved architecture that efficiently pro- cesses historical context and unifies action-level and task-level rewards. To sup- port the training of UI-Genie-RM, we develop deliberately-designed data genera- tion strategies including rule-based verification, controlled trajectory corruption, and hard negative mining. To address the second challenge, a self-improvement pipeline progressively expands solvable complex GUI tasks by enhancing both the agent and reward models through reward-guided exploration and outcome verification in dynamic environments. For training the model, we generate UI- Genie-RM-517k and UI-Genie-Agent-16k, establishing the first reward-specific dataset for GUI agents while demonstrating high-quality synthetic trajectory gen- eration without manual annotation. Experimental results show that UI-Genie achieves state-of-the-art performance across multiple GUI agent benchmarks with three generations of data-model self-improvement. We open-source our complete framework implementation and generated datasets to facilitate further research in https://github.com/Euphoria16/UI-Genie.

arxiv情報

著者 Han Xiao,Guozhi Wang,Yuxiang Chai,Zimu Lu,Weifeng Lin,Hao He,Lue Fan,Liuyang Bian,Rui Hu,Liang Liu,Shuai Ren,Yafei Wen,Xiaoxin Chen,Aojun Zhou,Hongsheng Li
発行日 2025-05-27 17:58:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク