UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

要約

最近のDeepSeek-R1は、ルールベースの報酬を備えた強化学習(RL)を通じてLLMSの推論能力の出現を紹介しています。
このアイデアに基づいて、ルールベースのRLがグラフィックユーザーインターフェイス(GUI)アクション予測タスクのマルチモーダル大手言語モデル(MLLMS)の推論機能をどのように強化できるかを調査しました。
この目的のために、モバイルデバイスで5つの共通アクションタイプを含む、136の挑戦的なタスクの小規模で高品質のデータセットをキュレートします。
また、統一されたルールベースのアクション報酬を導入し、グループ相対ポリシー最適化(GRPO)などのポリシーベースのアルゴリズムを介してモデルの最適化を可能にします。
実験結果は、提案されているデータ効率の良いモデルであるUI-R1-3Bが、ドメイン内(ID)とドメイン外(OOD)タスクの両方で大幅な改善を達成することを示しています。
具体的には、IDベンチマークAndroidControlでは、アクションタイプの精度は15%向上し、基本モデル(つまりQWEN2.5-VL-3B)と比較して、接地精度は10.3%増加します。
OOD GUIグラウンドベンチマークスクリーンズポット-Proでは、モデルはベースモデルを6.0%上回り、76Kデータで監視された微調整(SFT)を介してトレーニングされる、より大きなモデル(例:OS-ATLAS-7B)で競争力のあるパフォーマンスを達成します。
これらの結果は、GUIの理解と制御を進めるためのルールベースの強化学習の可能性を強調し、このドメインでの将来の研究への道を開いています。

要約(オリジナル)

The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities in LLMs through reinforcement learning (RL) with rule-based rewards. Building on this idea, we are the first to explore how rule-based RL can enhance the reasoning capabilities of multimodal large language models (MLLMs) for graphic user interface (GUI) action prediction tasks. To this end, we curate a small yet high-quality dataset of 136 challenging tasks, encompassing five common action types on mobile devices. We also introduce a unified rule-based action reward, enabling model optimization via policy-based algorithms such as Group Relative Policy Optimization (GRPO). Experimental results demonstrate that our proposed data-efficient model, UI-R1-3B, achieves substantial improvements on both in-domain (ID) and out-of-domain (OOD) tasks. Specifically, on the ID benchmark AndroidControl, the action type accuracy improves by 15%, while grounding accuracy increases by 10.3%, compared with the base model (i.e. Qwen2.5-VL-3B). On the OOD GUI grounding benchmark ScreenSpot-Pro, our model surpasses the base model by 6.0% and achieves competitive performance with larger models (e.g., OS-Atlas-7B), which are trained via supervised fine-tuning (SFT) on 76K data. These results underscore the potential of rule-based reinforcement learning to advance GUI understanding and control, paving the way for future research in this domain.

arxiv情報

著者 Zhengxi Lu,Yuxiang Chai,Yaxuan Guo,Xi Yin,Liang Liu,Hao Wang,Guanjing Xiong,Hongsheng Li
発行日 2025-03-27 15:39:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク