GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior

要約

マルチモーダル大手言語モデル(MLLMS)は、グラフィカルユーザーインターフェイス(GUI)の自動化に革命をもたらすことで大きな可能性を示しています。
ただし、既存のGUIモデルは、ほとんどエラーのないオフラインの軌跡から学習することに主に依存しているため、反射とエラーの回復機能がありません。
このギャップを埋めるために、専用のトレーニング段階全体で、自己反射とエラーの修正機能をエンドツーエンドのマルチモーダルGUIモデルに明示的に統合する新しいフレームワークであるGui-Reflectionを提案します。GUI固有の事前トレーニング、オフライン監視微調整(SFT)、およびオンラインリフレクションチューニングです。
GUI反射により、人間の注釈を必要とせずに、完全に自動化されたデータ生成および学習プロセスを備えた自己反射行動の出現が可能になります。
具体的には、1)最初にスケーラブルなデータパイプラインを提案して、既存の成功した軌跡から反射およびエラー補正データを自動的に構築します。
既存のGUIモデルは、主に接地とUIの理解能力に焦点を当てていますが、反射志向の能力を明示的に学習および評価するために、Gui-Reflection Task Suiteを提案します。
2)さらに、モバイルデバイス上のGUIモデルのオンライントレーニングとデータ収集のための多様で効率的な環境を構築しました。
3)また、提案された環境を活用する反復オンラインリフレクションチューニングアルゴリズムも提示し、モデルがその反射とエラーの補正能力を継続的に強化できるようにします。
当社のフレームワークは、GUIエージェントに自己反省と修正機能を装備し、すべてのデータ、モデル、環境、およびツールを公開するための、より堅牢で適応性のある、インテリジェントなGUIオートメーションへの道を開きます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have shown great potential in revolutionizing Graphical User Interface (GUI) automation. However, existing GUI models mostly rely on learning from nearly error-free offline trajectories, thus lacking reflection and error recovery capabilities. To bridge this gap, we propose GUI-Reflection, a novel framework that explicitly integrates self-reflection and error correction capabilities into end-to-end multimodal GUI models throughout dedicated training stages: GUI-specific pre-training, offline supervised fine-tuning (SFT), and online reflection tuning. GUI-reflection enables self-reflection behavior emergence with fully automated data generation and learning processes without requiring any human annotation. Specifically, 1) we first propose scalable data pipelines to automatically construct reflection and error correction data from existing successful trajectories. While existing GUI models mainly focus on grounding and UI understanding ability, we propose the GUI-Reflection Task Suite to learn and evaluate reflection-oriented abilities explicitly. 2) Furthermore, we built a diverse and efficient environment for online training and data collection of GUI models on mobile devices. 3) We also present an iterative online reflection tuning algorithm leveraging the proposed environment, enabling the model to continuously enhance its reflection and error correction abilities. Our framework equips GUI agents with self-reflection and correction capabilities, paving the way for more robust, adaptable, and intelligent GUI automation, with all data, models, environments, and tools to be released publicly.

arxiv情報

著者 Penghao Wu,Shengnan Ma,Bo Wang,Jiaheng Yu,Lewei Lu,Ziwei Liu
発行日 2025-06-09 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク