要約
グラフィカルユーザーインターフェイス(GUI)エージェントは、生産性ワークフローを変換する大きな可能性を備えた、複雑なデジタルタスクを自動化するためのクロスプラットフォームソリューションを提供しています。
ただし、それらのパフォーマンスは、多くの場合、高品質の軌跡データの希少性によって制約されます。
この制限に対処するために、専用のトレーニング段階でデータが豊富で推論集約型のタスクに関するトレーニングビジョン言語モデル(VLM)を提案し、これらのタスクを組み込むことでGUI計画シナリオへの一般化をどのように促進するかを調べます。
具体的には、GUI認識、マルチモーダル推論、テキストの推論など、容易に利用可能な命令調整データを備えたさまざまなタスクを調査します。
11の中間トレーニングタスクにわたる広範な実験を通じて、次のことを実証します。(1)タスクの一般化は非常に効果的であり、ほとんどの設定で大幅な改善をもたらします。
たとえば、マルチモーダルの数学的推論は、Androidworldのパフォーマンスを絶対6.3%増加させます。
驚くべきことに、テキストのみの数学データは、GUI Webエージェントのパフォーマンスを大幅に向上させ、WebArenaの5.6%の改善とAndroidworldの5.4%の改善を達成し、テキストベースから視覚ドメインまでの顕著なクロスモーダルの一般化を強調しています。
(2)以前の仮定に反して、GUI認識データ(以前はGUIエージェントタスクと密接に整合し、トレーニングに広く利用されていた)は、最終パフォーマンスに比較的限られた影響を及ぼします。
(3)これらの洞察に基づいて、最も効果的なミッドトレーニングタスクを特定し、最適化された混合データセットをキュレートし、WebArenaで8.0%、AndroidWorldで12.2%の絶対パフォーマンスの向上をもたらします。
私たちの作品は、GUIエージェントのクロスドメイン知識移転に関する貴重な洞察を提供し、この新興分野でのデータ不足の課題に対処するための実用的なアプローチを提供します。
コード、データ、モデルはhttps://github.com/hkust-nlp/guimidで入手できます。
要約(オリジナル)
Graphical User Interface (GUI) agents offer cross-platform solutions for automating complex digital tasks, with significant potential to transform productivity workflows. However, their performance is often constrained by the scarcity of high-quality trajectory data. To address this limitation, we propose training Vision Language Models (VLMs) on data-rich, reasoning-intensive tasks during a dedicated mid-training stage, and then examine how incorporating these tasks facilitates generalization to GUI planning scenarios. Specifically, we explore a range of tasks with readily available instruction-tuning data, including GUI perception, multimodal reasoning, and textual reasoning. Through extensive experiments across 11 mid-training tasks, we demonstrate that: (1) Task generalization proves highly effective, yielding substantial improvements across most settings. For instance, multimodal mathematical reasoning enhances performance on AndroidWorld by an absolute 6.3%. Remarkably, text-only mathematical data significantly boosts GUI web agent performance, achieving a 5.6% improvement on WebArena and 5.4% improvement on AndroidWorld, underscoring notable cross-modal generalization from text-based to visual domains; (2) Contrary to prior assumptions, GUI perception data – previously considered closely aligned with GUI agent tasks and widely utilized for training – has a comparatively limited impact on final performance; (3) Building on these insights, we identify the most effective mid-training tasks and curate optimized mixture datasets, resulting in absolute performance gains of 8.0% on WebArena and 12.2% on AndroidWorld. Our work provides valuable insights into cross-domain knowledge transfer for GUI agents and offers a practical approach to addressing data scarcity challenges in this emerging field. The code, data and models will be available at https://github.com/hkust-nlp/GUIMid.
arxiv情報
著者 | Junlei Zhang,Zichen Ding,Chang Ma,Zijie Chen,Qiushi Sun,Zhenzhong Lan,Junxian He |
発行日 | 2025-04-15 17:13:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google