Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining

要約

Web ページ、ソフトウェア アプリケーション、オペレーティング システムなどの対話型デジタル環境でのタスクを自動化するために、デジタル エージェントの採用が増えています。
大規模言語モデル (LLM) に基づいて構築されたテキストベースのエージェントは、プラットフォーム固有の API により頻繁な更新が必要になることがよくありますが、マルチモーダル大規模言語モデル (MLLM) を利用するビジュアル エージェントは、グラフィカル ユーザー インターフェイス (GUI) と直接対話することで適応性が強化されています。
しかし、これらのエージェントは、特に高解像度で視覚的に複雑なデジタル環境を扱う場合、視覚認識において重大な課題に直面しています。
このペーパーでは、情報に敏感なクロッピング (ISC) と自己洗練デュアル学習 (SRDL) という 2 つの主要なイノベーションを通じてこれらの課題に対処する基礎的なビジュアル エージェントである Iris を紹介します。
ISC は、エッジ検出アルゴリズムを使用して視覚的に密集した領域を動的に識別して優先順位を付け、より多くの計算リソースを情報密度の高い領域に割り当てることで効率的な処理を可能にします。
SRDL は、二重学習ループを活用することで複雑なタスクを処理するエージェントの能力を強化します。参照 (UI 要素の記述) の改善により、グラウンディング (要素の検索) が強化され、またその逆も同様であり、追加の注釈付きデータは必要ありません。
実証的評価により、Iris はわずか 850K GUI アノテーションを使用して複数のベンチマークにわたって最先端のパフォーマンスを達成し、10 倍以上のトレーニング データを使用する方法を上回るパフォーマンスを達成していることが実証されています。
これらの改善により、Web エージェントと OS エージェントの両方のダウンストリーム タスクが大幅に向上します。

要約(オリジナル)

Digital agents are increasingly employed to automate tasks in interactive digital environments such as web pages, software applications, and operating systems. While text-based agents built on Large Language Models (LLMs) often require frequent updates due to platform-specific APIs, visual agents leveraging Multimodal Large Language Models (MLLMs) offer enhanced adaptability by interacting directly with Graphical User Interfaces (GUIs). However, these agents face significant challenges in visual perception, particularly when handling high-resolution, visually complex digital environments. This paper introduces Iris, a foundational visual agent that addresses these challenges through two key innovations: Information-Sensitive Cropping (ISC) and Self-Refining Dual Learning (SRDL). ISC dynamically identifies and prioritizes visually dense regions using a edge detection algorithm, enabling efficient processing by allocating more computational resources to areas with higher information density. SRDL enhances the agent’s ability to handle complex tasks by leveraging a dual-learning loop, where improvements in referring (describing UI elements) reinforce grounding (locating elements) and vice versa, all without requiring additional annotated data. Empirical evaluations demonstrate that Iris achieves state-of-the-art performance across multiple benchmarks with only 850K GUI annotations, outperforming methods using 10x more training data. These improvements further translate to significant gains in both web and OS agent downstream tasks.

arxiv情報

著者 Zhiqi Ge,Juncheng Li,Xinglei Pang,Minghe Gao,Kaihang Pan,Wang Lin,Hao Fei,Wenqiao Zhang,Siliang Tang,Yueting Zhuang
発行日 2024-12-13 18:40:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク