DroidBot-GPT: GPT-powered UI Automation for Android

要約

【タイトル】DroidBot-GPT:AndroidのGPTによるUI自動化

【要約】
– DroidBot-GPTは、GPTのような大規模言語モデル(LLM)を利用して、Androidモバイルアプリケーションとのインタラクションを自動化するツールである。
– ユーザーが望むタスクの自然言語の説明が与えられると、DroidBot-GPTはアプリをナビゲートしてタスクを完了するためのアクションを自動的に生成および実行することができる。
– アプリのGUI状態情報とスマートフォン画面上で利用可能なアクションを自然言語のプロンプトに変換して、LLMにアクションの選択を求めることで機能します。
– LLMは通常、さまざまなソフトウェアアプリケーションの使用説明書を含む大量のデータでトレーニングされるため、提供された情報に基づいて合理的なアクションの選択が可能です。
– DroidBot-GPTを17のAndroidアプリケーションから収集した10のカテゴリーにまたがる33のタスクを含む自己作成のデータセットで評価し、39.39%のタスクを成功裏に完了し、平均部分完了進度は約66.76%であった。
– アプリとLLMの両方に修正が必要なく、完全に非監視であることから、より良いアプリ開発パラダイムやカスタムモデルトレーニングによって自動化性能を向上させる可能性があると考えている。

要約(オリジナル)

This paper introduces DroidBot-GPT, a tool that utilizes GPT-like large language models (LLMs) to automate the interactions with Android mobile applications. Given a natural language description of a desired task, DroidBot-GPT can automatically generate and execute actions that navigate the app to complete the task. It works by translating the app GUI state information and the available actions on the smartphone screen to natural language prompts and asking the LLM to make a choice of actions. Since the LLM is typically trained on a large amount of data including the how-to manuals of diverse software applications, it has the ability to make reasonable choices of actions based on the provided information. We evaluate DroidBot-GPT with a self-created dataset that contains 33 tasks collected from 17 Android applications spanning 10 categories. It can successfully complete 39.39% of the tasks, and the average partial completion progress is about 66.76%. Given the fact that our method is fully unsupervised (no modification required from both the app and the LLM), we believe there is great potential to enhance automation performance with better app development paradigms and/or custom model training.

arxiv情報

著者 Hao Wen,Hongming Wang,Jiaxuan Liu,Yuanchun Li
発行日 2023-04-14 11:31:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.SE パーマリンク