Large Language Model-Brained GUI Agents: A Survey

要約

GUI は長い間、人間とコンピューターの対話の中心であり、デジタル システムにアクセスして対話するための直観的かつ視覚的な方法を提供してきました。
LLM、特にマルチモーダル モデルの出現により、GUI 自動化の新時代が到来しました。
彼らは、自然言語理解、コード生成、視覚処理において優れた能力を実証してきました。
これにより、複雑な GUI 要素を解釈し、自然言語命令に基づいてアクションを自律的に実行できる、新世代の LLM 脳 GUI エージェントへの道が開かれました。
これらのエージェントはパラダイム シフトを表しており、ユーザーは単純な会話コマンドを通じて複雑な複数ステップのタスクを実行できます。
彼らのアプリケーションは、Web ナビゲーション、モバイル アプリのインタラクション、デスクトップ オートメーションにまたがり、個人がソフトウェアを操作する方法に革命をもたらす革新的なユーザー エクスペリエンスを提供します。
この新興分野は急速に進歩しており、研究と産業の両方で大きな進歩が見られます。
この傾向を構造的に理解するために、このホワイトペーパーでは、LLM を活用した GUI エージェントの包括的な調査を提示し、その歴史的進化、コアコンポーネント、および高度な技術を調査します。
私たちは、既存の GUI エージェント フレームワーク、特化した GUI エージェントをトレーニングするためのデータの収集と利用、GUI タスクに合わせた大規模なアクション モデルの開発、その有効性を評価するために必要な評価指標とベンチマークなどの研究課題に取り組みます。
さらに、これらのエージェントを利用した新しいアプリケーションを調査します。
この調査では、詳細な分析を通じて主要な研究ギャップを特定し、この分野の将来の進歩に向けたロードマップの概要を示します。
この研究は、基礎的な知識と最先端の開発を統合することにより、研究者と実践者の両方が課題を克服し、LLM を活用した GUI エージェントの可能性を最大限に引き出すよう導くことを目的としています。

要約(オリジナル)

GUIs have long been central to human-computer interaction, providing an intuitive and visually-driven way to access and interact with digital systems. The advent of LLMs, particularly multimodal models, has ushered in a new era of GUI automation. They have demonstrated exceptional capabilities in natural language understanding, code generation, and visual processing. This has paved the way for a new generation of LLM-brained GUI agents capable of interpreting complex GUI elements and autonomously executing actions based on natural language instructions. These agents represent a paradigm shift, enabling users to perform intricate, multi-step tasks through simple conversational commands. Their applications span across web navigation, mobile app interactions, and desktop automation, offering a transformative user experience that revolutionizes how individuals interact with software. This emerging field is rapidly advancing, with significant progress in both research and industry. To provide a structured understanding of this trend, this paper presents a comprehensive survey of LLM-brained GUI agents, exploring their historical evolution, core components, and advanced techniques. We address research questions such as existing GUI agent frameworks, the collection and utilization of data for training specialized GUI agents, the development of large action models tailored for GUI tasks, and the evaluation metrics and benchmarks necessary to assess their effectiveness. Additionally, we examine emerging applications powered by these agents. Through a detailed analysis, this survey identifies key research gaps and outlines a roadmap for future advancements in the field. By consolidating foundational knowledge and state-of-the-art developments, this work aims to guide both researchers and practitioners in overcoming challenges and unlocking the full potential of LLM-brained GUI agents.

arxiv情報

著者 Chaoyun Zhang,Shilin He,Jiaxu Qian,Bowen Li,Liqun Li,Si Qin,Yu Kang,Minghua Ma,Qingwei Lin,Saravan Rajmohan,Dongmei Zhang,Qi Zhang
発行日 2024-11-27 12:13:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク