Large Language Model-Brained GUI Agents: A Survey

要約

GUIは長い間、人間とコンピュータのインタラクションの中心であり、デジタルシステムへのアクセスやインタラクションに直感的で視覚的な方法を提供してきた。LLM、特にマルチモーダルモデルの登場は、GUI自動化の新時代を切り開いた。LLMは、自然言語理解、コード生成、視覚処理において卓越した能力を発揮している。これにより、複雑なGUI要素を解釈し、自然言語の指示に基づいたアクションを自律的に実行することができる、LLMの頭脳を持つ新世代のGUIエージェントへの道が開かれた。これらのエージェントはパラダイムシフトを象徴するものであり、ユーザが簡単な会話コマンドによって複雑なマルチステップタスクを実行することを可能にする。その用途は、ウェブナビゲーション、モバイルアプリのインタラクション、デスクトップの自動化など多岐にわたり、個人がソフトウェアとどのように接するかを変革するユーザー体験を提供する。この新分野は急速に進歩しており、研究と産業の両方で大きな進展が見られます。 このトレンドを構造的に理解するために、本論文ではLLMベースのGUIエージェントの包括的なサーベイを行い、その歴史的な進化、コアコンポーネント、および先進的なテクニックを探求する。既存のGUIエージェントフレームワーク、特殊なGUIエージェントを訓練するためのデータの収集と活用、GUIタスクに合わせた大規模なアクションモデルの開発、その有効性を評価するために必要な評価指標とベンチマークなどの研究課題を扱う。さらに、これらのエージェントを利用した新たなアプリケーションについても検討する。詳細な分析を通して、この調査は主要な研究ギャップを特定し、この分野における将来の進歩のためのロードマップを概説する。基礎的な知識と最先端の開発を統合することで、本研究は、研究者と実務家の双方が課題を克服し、LLMベースのGUIエージェントの可能性を最大限に引き出すための指針となることを目指している。

要約(オリジナル)

GUIs have long been central to human-computer interaction, providing an intuitive and visually-driven way to access and interact with digital systems. The advent of LLMs, particularly multimodal models, has ushered in a new era of GUI automation. They have demonstrated exceptional capabilities in natural language understanding, code generation, and visual processing. This has paved the way for a new generation of LLM-brained GUI agents capable of interpreting complex GUI elements and autonomously executing actions based on natural language instructions. These agents represent a paradigm shift, enabling users to perform intricate, multi-step tasks through simple conversational commands. Their applications span across web navigation, mobile app interactions, and desktop automation, offering a transformative user experience that revolutionizes how individuals interact with software. This emerging field is rapidly advancing, with significant progress in both research and industry. To provide a structured understanding of this trend, this paper presents a comprehensive survey of LLM-brained GUI agents, exploring their historical evolution, core components, and advanced techniques. We address research questions such as existing GUI agent frameworks, the collection and utilization of data for training specialized GUI agents, the development of large action models tailored for GUI tasks, and the evaluation metrics and benchmarks necessary to assess their effectiveness. Additionally, we examine emerging applications powered by these agents. Through a detailed analysis, this survey identifies key research gaps and outlines a roadmap for future advancements in the field. By consolidating foundational knowledge and state-of-the-art developments, this work aims to guide both researchers and practitioners in overcoming challenges and unlocking the full potential of LLM-brained GUI agents.

arxiv情報

著者 Chaoyun Zhang,Shilin He,Jiaxu Qian,Bowen Li,Liqun Li,Si Qin,Yu Kang,Minghua Ma,Guyue Liu,Qingwei Lin,Saravan Rajmohan,Dongmei Zhang,Qi Zhang
発行日 2025-02-02 17:08:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク