要約
このペーパーでは、スクリーンショットを入力としてのみ認識し、人間のような対話 (キーボードやマウスの操作など) を実行するネイティブ GUI エージェント モデルである UI-TARS を紹介します。
専門家が作成したプロンプトとワークフローを備えた、複雑にラップされた商用モデル (GPT-4o など) に依存する一般的なエージェント フレームワークとは異なり、UI-TARS は、これらの洗練されたフレームワークよりも優れたパフォーマンスを発揮するエンドツーエンドのモデルです。
実験により、その優れたパフォーマンスが実証されています。UI-TARS は、認識、グラウンディング、および GUI タスクの実行を評価する 10 以上の GUI エージェント ベンチマークで SOTA パフォーマンスを達成しています。
特に、OSWorld ベンチマークでは、UI-TARS は 50 ステップで 24.6、15 ステップで 22.7 のスコアを達成し、Claude (それぞれ 22.0 と 14.9) を上回っています。
AndroidWorld では、UI-TARS は 46.6 を達成し、GPT-4o (34.5) を上回りました。
UI-TARS には、いくつかの主要なイノベーションが組み込まれています。(1) 知覚の強化: GUI スクリーンショットの大規模なデータセットを活用して、UI 要素のコンテキストを認識した理解と正確なキャプションを実現します。
(2) 統合アクション モデリング。プラットフォーム間でアクションを統一空間に標準化し、大規模なアクション トレースを通じて正確なグラウンディングとインタラクションを実現します。
(3) システム 2 推論。タスクの分解、リフレクション思考、マイルストーン認識などの複数の推論パターンを含む、複数ステップの意思決定に意図的な推論を組み込みます。 (4) データに対処するリフレクティブ オンライン トレースによる反復トレーニング
数百の仮想マシン上の新しいインタラクショントレースを自動的に収集、フィルタリング、反射的に調整することでボトルネックを解消します。
反復トレーニングとリフレクション チューニングを通じて、UI-TARS は失敗から継続的に学習し、人間の介入を最小限に抑えながら予期せぬ状況に適応します。
また、このドメインのさらなる開発を導くために、GUI エージェントの進化の経路も分析します。
要約(オリジナル)
This paper introduces UI-TARS, a native GUI agent model that solely perceives the screenshots as input and performs human-like interactions (e.g., keyboard and mouse operations). Unlike prevailing agent frameworks that depend on heavily wrapped commercial models (e.g., GPT-4o) with expert-crafted prompts and workflows, UI-TARS is an end-to-end model that outperforms these sophisticated frameworks. Experiments demonstrate its superior performance: UI-TARS achieves SOTA performance in 10+ GUI agent benchmarks evaluating perception, grounding, and GUI task execution. Notably, in the OSWorld benchmark, UI-TARS achieves scores of 24.6 with 50 steps and 22.7 with 15 steps, outperforming Claude (22.0 and 14.9 respectively). In AndroidWorld, UI-TARS achieves 46.6, surpassing GPT-4o (34.5). UI-TARS incorporates several key innovations: (1) Enhanced Perception: leveraging a large-scale dataset of GUI screenshots for context-aware understanding of UI elements and precise captioning; (2) Unified Action Modeling, which standardizes actions into a unified space across platforms and achieves precise grounding and interaction through large-scale action traces; (3) System-2 Reasoning, which incorporates deliberate reasoning into multi-step decision making, involving multiple reasoning patterns such as task decomposition, reflection thinking, milestone recognition, etc. (4) Iterative Training with Reflective Online Traces, which addresses the data bottleneck by automatically collecting, filtering, and reflectively refining new interaction traces on hundreds of virtual machines. Through iterative training and reflection tuning, UI-TARS continuously learns from its mistakes and adapts to unforeseen situations with minimal human intervention. We also analyze the evolution path of GUI agents to guide the further development of this domain.
arxiv情報
著者 | Yujia Qin,Yining Ye,Junjie Fang,Haoming Wang,Shihao Liang,Shizuo Tian,Junda Zhang,Jiahao Li,Yunxin Li,Shijue Huang,Wanjun Zhong,Kuanye Li,Jiale Yang,Yu Miao,Woyu Lin,Longxiang Liu,Xu Jiang,Qianli Ma,Jingyu Li,Xiaojun Xiao,Kai Cai,Chuang Li,Yaowei Zheng,Chaolin Jin,Chen Li,Xiao Zhou,Minchao Wang,Haoli Chen,Zhaojian Li,Haihua Yang,Haifeng Liu,Feng Lin,Tao Peng,Xin Liu,Guang Shi |
発行日 | 2025-01-21 17:48:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google