ZeroGUI: Automating Online GUI Learning at Zero Human Cost

要約

大規模なビジョン言語モデル(VLM)の迅速な進歩により、純粋なビジョンベースのGUIエージェントの開発が推進されており、ユーザーの指示を自律的に満たすために、グラフィカルユーザーインターフェイス(GUI)を知覚および操作できるようになりました。
ただし、既存のアプローチは通常、オフライン学習フレームワークを採用しています。これは、2つのコア制限に直面しています。(1)要素の接地とアクション監督のための高品質のマニュアル注釈に大きく依存し、(2)動的およびインタラクティブな環境への適応性が限られています。
これらの制限に対処するために、ゼロコストでGUIエージェントトレーニングを自動化するためのスケーラブルなオンライン学習フレームワークであるZeroguiを提案します。
具体的には、Zeroguiは(i)VLMベースの自動タスク生成を統合して、現在の環境状態から多様なトレーニング目標、(ii)手作りの評価機能なしでタスクの成功を評価するためのVLMベースの自動報酬推定、および(iii)GUI環境と継続的に対話し、学習する2段階のオンライン強化学習を統合します。
2つの高度なGUIエージェント(UI-TARとAguvis)の実験は、ZeroguiがOsworld環境とAndroidLab環境全体でパフォーマンスを大幅に向上させることを示しています。
このコードは、https://github.com/opengvlab/zeroguiで入手できます。

要約(オリジナル)

The rapid advancement of large Vision-Language Models (VLMs) has propelled the development of pure-vision-based GUI Agents, capable of perceiving and operating Graphical User Interfaces (GUI) to autonomously fulfill user instructions. However, existing approaches usually adopt an offline learning framework, which faces two core limitations: (1) heavy reliance on high-quality manual annotations for element grounding and action supervision, and (2) limited adaptability to dynamic and interactive environments. To address these limitations, we propose ZeroGUI, a scalable, online learning framework for automating GUI Agent training at Zero human cost. Specifically, ZeroGUI integrates (i) VLM-based automatic task generation to produce diverse training goals from the current environment state, (ii) VLM-based automatic reward estimation to assess task success without hand-crafted evaluation functions, and (iii) two-stage online reinforcement learning to continuously interact with and learn from GUI environments. Experiments on two advanced GUI Agents (UI-TARS and Aguvis) demonstrate that ZeroGUI significantly boosts performance across OSWorld and AndroidLab environments. The code is available at https://github.com/OpenGVLab/ZeroGUI.

arxiv情報

著者 Chenyu Yang,Shiqian Su,Shi Liu,Xuan Dong,Yue Yu,Weijie Su,Xuehui Wang,Zhaoyang Liu,Jinguo Zhu,Hao Li,Wenhai Wang,Yu Qiao,Xizhou Zhu,Jifeng Dai
発行日 2025-05-29 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク