要約
最近のDeepSeek-R1は、ルールベースの報酬を備えた強化学習(RL)を通じてLLMSの推論能力の出現を紹介しています。
このアイデアに基づいて、ルールベースのRLがグラフィックユーザーインターフェイス(GUI)アクション予測タスクのマルチモーダル大手言語モデル(MLLMS)の推論機能をどのように強化できるかを調査しました。
この目的のために、モバイルデバイスで5つの共通アクションタイプを含む、136の挑戦的なタスクの小規模で高品質のデータセットをキュレートします。
また、統一されたルールベースのアクション報酬を導入し、グループ相対ポリシー最適化(GRPO)などのポリシーベースのアルゴリズムを介してモデルの最適化を可能にします。
実験結果は、提案されているデータ効率の良いモデルであるUI-R1-3Bが、ドメイン内(ID)とドメイン外(OOD)タスクの両方で大幅な改善を達成することを示しています。
具体的には、IDベンチマークAndroidControlでは、アクションタイプの精度は15%向上し、基本モデル(つまりQWEN2.5-VL-3B)と比較して、接地精度は10.3%増加します。
OOD GUIグラウンドベンチマークスクリーンズポット-Proでは、モデルはベースモデルを6.0%上回り、76Kデータで監視された微調整(SFT)を介してトレーニングされる、より大きなモデル(例:OS-ATLAS-7B)で競争力のあるパフォーマンスを達成します。
これらの結果は、GUIの理解と制御を進めるためのルールベースの強化学習の可能性を強調し、このドメインでの将来の研究への道を開いています。
要約(オリジナル)
The recent DeepSeek-R1 has showcased the emergence of reasoning capabilities in LLMs through reinforcement learning (RL) with rule-based rewards. Building on this idea, we are the first to explore how rule-based RL can enhance the reasoning capabilities of multimodal large language models (MLLMs) for graphic user interface (GUI) action prediction tasks. To this end, we curate a small yet high-quality dataset of 136 challenging tasks, encompassing five common action types on mobile devices. We also introduce a unified rule-based action reward, enabling model optimization via policy-based algorithms such as Group Relative Policy Optimization (GRPO). Experimental results demonstrate that our proposed data-efficient model, UI-R1-3B, achieves substantial improvements on both in-domain (ID) and out-of-domain (OOD) tasks. Specifically, on the ID benchmark AndroidControl, the action type accuracy improves by 15%, while grounding accuracy increases by 10.3%, compared with the base model (i.e. Qwen2.5-VL-3B). On the OOD GUI grounding benchmark ScreenSpot-Pro, our model surpasses the base model by 6.0% and achieves competitive performance with larger models (e.g., OS-Atlas-7B), which are trained via supervised fine-tuning (SFT) on 76K data. These results underscore the potential of rule-based reinforcement learning to advance GUI understanding and control, paving the way for future research in this domain.
arxiv情報
著者 | Zhengxi Lu,Yuxiang Chai,Yaxuan Guo,Xi Yin,Liang Liu,Hao Wang,Guanjing Xiong,Hongsheng Li |
発行日 | 2025-03-27 15:39:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google