GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents

要約

最近のグラフィカルユーザーインターフェイス(GUI)エージェントは、R1-Zeroパラダイムを複製し、オブジェクトの接地前に明示的なチェーンの推論を備えたオンライン補強学習(RL)を結合し、それによってかなりのパフォーマンスの向上を達成します。
この論文では、最初に、そのトレーニングパイプラインの3つの重要なコンポーネントの広範な分析実験を実施します。入力設計、出力評価、およびPolicy Updateは、GUI接地タスクに適応せずに汎用RLを盲目的に適用することから生じる明確な課題を明らかにします。
入力設計:現在のテンプレートは、モデルが考えられたチェーンの推論を生成するよう奨励しますが、長いチェーンは予期せずに接地パフォーマンスが悪化します。
出力評価:ヒット信号またはボックスエリアに基づく報酬関数により、モデルはボックスサイズを活用し、報酬のハッキングとローカリゼーションの品質が低下します。
ポリシーの更新:オンラインRLは、長さのバイアスとサンプルの難易度のために簡単な例にぴったりである傾向があり、より困難なケースで最適化されていない。
これらの問題に対処するために、3つのターゲットを絞ったソリューションを提案します。
まず、直接的な回答生成を促進する高速思考テンプレートを採用し、トレーニング中の過度の推論を減らします。
第二に、報酬ハッキングを緩和するために、報酬関数にボックスサイズの制約を組み込みます。
第三に、長さの正規化を調整し、難易度に合ったスケーリング係数を追加し、ハードサンプルの最適化を改善できるようにすることにより、RLの目的を修正します。
GUI-G1-3Bは、QWEN2.5-VL-3B-Instructで17Kの公共サンプルで訓練されており、Screenspotで90.3%の精度、Screenspot-Proで37.1%を達成します。
これは、同様のサイズのすべての以前のモデルを上回り、さらに大きなUI-TARS-7Bを上回り、GUIエージェントの接地で新しい最先端の接地を確立します。
プロジェクトリポジトリは、https://github.com/yuqi-zhou/gui-g1で入手できます。

要約(オリジナル)

Recent Graphical User Interface (GUI) agents replicate the R1-Zero paradigm, coupling online Reinforcement Learning (RL) with explicit chain-of-thought reasoning prior to object grounding and thereby achieving substantial performance gains. In this paper, we first conduct extensive analysis experiments of three key components of that training pipeline: input design, output evaluation, and policy update-each revealing distinct challenges arising from blindly applying general-purpose RL without adapting to GUI grounding tasks. Input design: Current templates encourage the model to generate chain-of-thought reasoning, but longer chains unexpectedly lead to worse grounding performance. Output evaluation: Reward functions based on hit signals or box area allow models to exploit box size, leading to reward hacking and poor localization quality. Policy update: Online RL tends to overfit easy examples due to biases in length and sample difficulty, leading to under-optimization on harder cases. To address these issues, we propose three targeted solutions. First, we adopt a Fast Thinking Template that encourages direct answer generation, reducing excessive reasoning during training. Second, we incorporate a box size constraint into the reward function to mitigate reward hacking. Third, we revise the RL objective by adjusting length normalization and adding a difficulty-aware scaling factor, enabling better optimization on hard samples. Our GUI-G1-3B, trained on 17K public samples with Qwen2.5-VL-3B-Instruct, achieves 90.3% accuracy on ScreenSpot and 37.1% on ScreenSpot-Pro. This surpasses all prior models of similar size and even outperforms the larger UI-TARS-7B, establishing a new state-of-the-art in GUI agent grounding. The project repository is available at https://github.com/Yuqi-Zhou/GUI-G1.

arxiv情報

著者 Yuqi Zhou,Sunhao Dai,Shuai Wang,Kaiwen Zhou,Qinqlin Jia,Junxu
発行日 2025-05-21 17:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク