要約
現在、GUI エージェントに関する研究が AI コミュニティでホットな話題になっています。
ただし、現在の研究は GUI タスクの自動化に焦点を当てており、さまざまな GUI シナリオにおけるアプリケーションの範囲が制限されています。
このペーパーでは、自動 GUI テスト (GTArena) のプロセス全体を評価するための形式的で包括的な環境を提案し、多様なマルチモーダル大規模言語モデルの一貫した操作のための公正で標準化された環境を提供します。
テストプロセスを「テスト意図の生成」「テストタスクの実行」「GUIの不具合検出」という3つの主要なサブタスクに分割し、これらに基づいてベンチマークデータセットを構築し、総合的な評価を実施します。
実際のモバイル アプリケーション、人為的に欠陥が挿入されたモバイル アプリケーション、合成データの 3 つのデータ タイプを使用してさまざまなモデルのパフォーマンスを評価し、この関連タスクにおけるモデルの機能を徹底的に評価します。
さらに、研究者が特定のシナリオにおけるマルチモーダル言語の大規模モデルのパフォーマンスと、標準的なベンチマーク テストにおける一般的な機能との間の相関関係を調査するのに役立つ方法を提案します。
実験結果は、最も高度なモデルでも自動 GUI テストのすべてのサブタスクにわたって良好なパフォーマンスを発揮するのに苦労していることを示しており、自律 GUI テストの現在の機能と実際の現実世界への適用可能性との間に大きなギャップがあることが浮き彫りになっています。
このギャップは、GUI エージェント開発の将来の方向性に対する指針を提供します。
コードは https://github.com/ZJU-ACES-ISE/ChatUITest で入手できます。
要約(オリジナル)
Nowadays, research on GUI agents is a hot topic in the AI community. However, current research focuses on GUI task automation, limiting the scope of applications in various GUI scenarios. In this paper, we propose a formalized and comprehensive environment to evaluate the entire process of automated GUI Testing (GTArena), offering a fair, standardized environment for consistent operation of diverse multimodal large language models. We divide the testing process into three key subtasks: test intention generation, test task execution, and GUI defect detection, and construct a benchmark dataset based on these to conduct a comprehensive evaluation. It evaluates the performance of different models using three data types: real mobile applications, mobile applications with artificially injected defects, and synthetic data, thoroughly assessing their capabilities in this relevant task. Additionally, we propose a method that helps researchers explore the correlation between the performance of multimodal language large models in specific scenarios and their general capabilities in standard benchmark tests. Experimental results indicate that even the most advanced models struggle to perform well across all sub-tasks of automated GUI Testing, highlighting a significant gap between the current capabilities of Autonomous GUI Testing and its practical, real-world applicability. This gap provides guidance for the future direction of GUI Agent development. Our code is available at https://github.com/ZJU-ACES-ISE/ChatUITest.
arxiv情報
著者 | Kangjia Zhao,Jiahui Song,Leigang Sha,Haozhan Shen,Zhi Chen,Tiancheng Zhao,Xiubo Liang,Jianwei Yin |
発行日 | 2024-12-24 13:41:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google