ShowUI: One Vision-Language-Action Model for GUI Visual Agent

要約

グラフィカル ユーザー インターフェイス (GUI) アシスタントの構築は、人間のワークフローの生産性を向上させる大きな可能性を秘めています。
ほとんどのエージェントは言語ベースであり、テキストが豊富なメタ情報 (HTML やアクセシビリティ ツリーなど) を含むクローズドソース API に依存していますが、人間と同じように UI ビジュアルを認識することに限界があり、GUI ビジュアル エージェントの必要性が強調されています。
この研究では、デジタル世界におけるビジョン-言語-アクション モデル、つまり ShowUI を開発します。これは、次の革新的な機能を備えています: (i) スクリーンショットを UI に接続されたグラフとして定式化し、適応的に識別することで計算コストを削減する UI ガイドによるビジュアル トークン選択
それらの冗長な関係は、セルフ アテンション ブロック中のトークン選択の基準として機能します。
(ii) GUI タスク内の多様なニーズを柔軟に統合するインターリーブ ビジョン-言語-アクション ストリーミング。これにより、ナビゲーションにおける視覚アクション履歴の効果的な管理や、スクリーンショットごとのマルチターン クエリアクション シーケンスのペアリングが可能になり、トレーニング効率が向上します。
(iii) 慎重なデータキュレーションと、重大なデータ型の不均衡に対処するためのリサンプリング戦略の採用による、小規模で高品質な GUI 命令に従うデータセット。
上記のコンポーネントを使用すると、256K データを使用する軽量 2B モデルである ShowUI は、ゼロショット スクリーンショット グラウンディングで 75.1% という強力な精度を達成します。
UI ガイドによるトークン選択により、トレーニング中の冗長なビジュアル トークンが 33% 削減され、パフォーマンスが 1.4 倍高速化されます。
ウェブ Mind2Web、モバイル AITW、オンライン MiniWob 環境にわたるナビゲーション実験により、GUI ビジュアル エージェントの進歩におけるモデルの有効性と可能性がさらに強調されました。
モデルは https://github.com/showlab/ShowUI で入手できます。

要約(オリジナル)

Building Graphical User Interface (GUI) assistants holds significant promise for enhancing human workflow productivity. While most agents are language-based, relying on closed-source API with text-rich meta-information (e.g., HTML or accessibility tree), they show limitations in perceiving UI visuals as humans do, highlighting the need for GUI visual agents. In this work, we develop a vision-language-action model in digital world, namely ShowUI, which features the following innovations: (i) UI-Guided Visual Token Selection to reduce computational costs by formulating screenshots as an UI connected graph, adaptively identifying their redundant relationship and serve as the criteria for token selection during self-attention blocks; (ii) Interleaved Vision-Language-Action Streaming that flexibly unifies diverse needs within GUI tasks, enabling effective management of visual-action history in navigation or pairing multi-turn query-action sequences per screenshot to enhance training efficiency; (iii) Small-scale High-quality GUI Instruction-following Datasets by careful data curation and employing a resampling strategy to address significant data type imbalances. With above components, ShowUI, a lightweight 2B model using 256K data, achieves a strong 75.1% accuracy in zero-shot screenshot grounding. Its UI-guided token selection further reduces 33% of redundant visual tokens during training and speeds up the performance by 1.4x. Navigation experiments across web Mind2Web, mobile AITW, and online MiniWob environments further underscore the effectiveness and potential of our model in advancing GUI visual agents. The models are available at https://github.com/showlab/ShowUI.

arxiv情報

著者 Kevin Qinghong Lin,Linjie Li,Difei Gao,Zhengyuan Yang,Shiwei Wu,Zechen Bai,Weixian Lei,Lijuan Wang,Mike Zheng Shou
発行日 2024-11-26 14:29:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC パーマリンク