GUI Agents with Foundation Models: A Comprehensive Survey

要約

基礎モデル、特に大規模言語モデル (LLM) とマルチモーダル大規模言語モデル (MLLM) の最近の進歩により、インテリジェント エージェントが複雑なタスクを実行できるようになりました。
グラフィカル ユーザー インターフェイス (GUI) を処理および解釈する (M)LLM の機能を活用することで、これらのエージェントは、クリックやタイピングなどの人間のような対話をシミュレートすることで、ユーザーの指示を自律的に実行できます。
この調査は、(M)LLM ベースの GUI エージェントに関する最近の調査を統合し、データ、フレームワーク、およびアプリケーションにおける主要な革新に焦点を当てています。
まず、代表的なデータセットとベンチマークについて説明します。
次に、先行研究で使用された重要なコンポーネントを分類法とともに捉えた統一フレームワークを要約します。
さらに、(M)LLM ベースの GUI エージェントの商用アプリケーションも検討します。
私たちは既存の研究に基づいて、いくつかの重要な課題を特定し、将来の研究の方向性を提案します。
この文書が (M)LLM ベースの GUI エージェントの分野におけるさらなる開発のきっかけとなることを願っています。

要約(オリジナル)

Recent advances in foundation models, particularly Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs), facilitate intelligent agents being capable of performing complex tasks. By leveraging the ability of (M)LLMs to process and interpret Graphical User Interfaces (GUIs), these agents can autonomously execute user instructions by simulating human-like interactions such as clicking and typing. This survey consolidates recent research on (M)LLM-based GUI agents, highlighting key innovations in data, frameworks, and applications. We begin by discussing representative datasets and benchmarks. Next, we summarize a unified framework that captures the essential components used in prior research, accompanied by a taxonomy. Additionally, we explore commercial applications of (M)LLM-based GUI agents. Drawing from existing work, we identify several key challenges and propose future research directions. We hope this paper will inspire further developments in the field of (M)LLM-based GUI agents.

arxiv情報

著者 Shuai Wang,Weiwen Liu,Jingxuan Chen,Weinan Gan,Xingshan Zeng,Shuai Yu,Xinlong Hao,Kun Shao,Yasheng Wang,Ruiming Tang
発行日 2024-11-07 17:28:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC パーマリンク