要約
デジタルエージェントは、ウェブページ、ソフトウェアアプリケーション、オペレーティングシステムなどのインタラクティブなデジタル環境におけるタスクを自動化するために、ますます採用されるようになってきている。大規模言語モデル(LLM)をベースにしたテキストベースのエージェントは、プラットフォーム固有のAPIにより頻繁なアップデートを必要とすることが多いのに対し、マルチモーダル大規模言語モデル(MLLM)を活用したビジュアルエージェントは、グラフィカルユーザインタフェース(GUI)と直接対話することで、より高い適応性を提供します。しかし、これらのエージェントは、特に高解像度で視覚的に複雑なデジタル環境を扱う際に、視覚認識における大きな課題に直面する。本稿では、2つの重要な革新技術によってこれらの課題に対処する、基礎的な視覚エージェントであるIrisを紹介する:情報感応型クロッピング(ISC)と自己定義型デュアルラーニング(SRDL)である。ISCは、エッジ検出アルゴリズムを用いて、視覚的に密度の高い領域を動的に識別し、優先順位を付けます。これにより、情報密度の高い領域により多くの計算資源を割り当てることで、効率的な処理を可能にします。SRDLは、二重学習ループを活用することで、複雑なタスクを処理するエージェントの能力を向上させます。このループでは、参照(UI要素の記述)の改善により、接地(要素の位置特定)が強化され、その逆もまた同様です。実証的な評価により、Irisはわずか850KのGUIアノテーションで、複数のベンチマークにおいて最先端の性能を達成し、10倍以上の学習データを使用する手法よりも優れていることが実証されました。これらの改善は、さらにウェブとOSエージェントの両方のダウンストリームタスクで大きな利益をもたらします。
要約(オリジナル)
Digital agents are increasingly employed to automate tasks in interactive digital environments such as web pages, software applications, and operating systems. While text-based agents built on Large Language Models (LLMs) often require frequent updates due to platform-specific APIs, visual agents leveraging Multimodal Large Language Models (MLLMs) offer enhanced adaptability by interacting directly with Graphical User Interfaces (GUIs). However, these agents face significant challenges in visual perception, particularly when handling high-resolution, visually complex digital environments. This paper introduces Iris, a foundational visual agent that addresses these challenges through two key innovations: Information-Sensitive Cropping (ISC) and Self-Refining Dual Learning (SRDL). ISC dynamically identifies and prioritizes visually dense regions using a edge detection algorithm, enabling efficient processing by allocating more computational resources to areas with higher information density. SRDL enhances the agent’s ability to handle complex tasks by leveraging a dual-learning loop, where improvements in referring (describing UI elements) reinforce grounding (locating elements) and vice versa, all without requiring additional annotated data. Empirical evaluations demonstrate that Iris achieves state-of-the-art performance across multiple benchmarks with only 850K GUI annotations, outperforming methods using 10x more training data. These improvements further translate to significant gains in both web and OS agent downstream tasks.
arxiv情報
著者 | Zhiqi Ge,Juncheng Li,Xinglei Pang,Minghe Gao,Kaihang Pan,Wang Lin,Hao Fei,Wenqiao Zhang,Siliang Tang,Yueting Zhuang |
発行日 | 2025-02-03 15:23:02+00:00 |
arxivサイト | arxiv_id(pdf) |