要約
このペーパーでは、GPT のようなラージ言語モデル (LLM) を利用して Android モバイル アプリケーションとの対話を自動化するツールである DroidBot-GPT について紹介します。
目的のタスクを自然言語で説明すると、DroidBot-GPT は、タスクを完了するためにアプリをナビゲートするアクションを自動的に生成して実行できます。
これは、アプリの GUI の状態情報とスマートフォン画面上で利用可能なアクションを自然言語プロンプトに変換し、LLM にアクションの選択を求めることで機能します。
LLM は通常、さまざまなソフトウェア アプリケーションのハウツー マニュアルを含む大量のデータでトレーニングされるため、提供された情報に基づいて適切なアクションを選択する能力を備えています。
10 カテゴリにまたがる 17 の Android アプリケーションから収集された 33 のタスクを含む自己作成データセットを使用して DroidBot-GPT を評価します。
タスクの 39.39% を正常に完了でき、部分完了の平均進捗率は約 66.76% です。
私たちの手法が完全に監視されていない(アプリと LLM の両方からの変更が必要ない)という事実を考慮すると、より優れたアプリ開発パラダイムやカスタム モデル トレーニングによって自動化パフォーマンスを向上できる大きな可能性があると考えています。
要約(オリジナル)
This paper introduces DroidBot-GPT, a tool that utilizes GPT-like large language models (LLMs) to automate the interactions with Android mobile applications. Given a natural language description of a desired task, DroidBot-GPT can automatically generate and execute actions that navigate the app to complete the task. It works by translating the app GUI state information and the available actions on the smartphone screen to natural language prompts and asking the LLM to make a choice of actions. Since the LLM is typically trained on a large amount of data including the how-to manuals of diverse software applications, it has the ability to make reasonable choices of actions based on the provided information. We evaluate DroidBot-GPT with a self-created dataset that contains 33 tasks collected from 17 Android applications spanning 10 categories. It can successfully complete 39.39% of the tasks, and the average partial completion progress is about 66.76%. Given the fact that our method is fully unsupervised (no modification required from both the app and the LLM), we believe there is great potential to enhance automation performance with better app development paradigms and/or custom model training.
arxiv情報
著者 | Hao Wen,Hongming Wang,Jiaxuan Liu,Yuanchun Li |
発行日 | 2023-11-21 12:08:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google