AutoDroid-0shot: A Simple Baseline for GPT-powered UI-grounded Smartphone Task Automation in Android

要約

このペーパーでは、GPT のようなラージ言語モデル (LLM) を利用して Android モバイル アプリケーションとの対話を自動化するツールである AutoDroid-0shot を紹介します。
目的のタスクを自然言語で説明すると、AutoDroid-0shot はタスクを完了するためにアプリをナビゲートするアクションを自動的に生成して実行できます。
これは、アプリの GUI の状態情報とスマートフォン画面上で利用可能なアクションを自然言語プロンプトに変換し、LLM にアクションの選択を求めることで機能します。
LLM は通常、さまざまなソフトウェア アプリケーションのハウツー マニュアルを含む大量のデータでトレーニングされるため、提供された情報に基づいて適切なアクションを選択する能力を備えています。
10 カテゴリにわたる 17 の Android アプリケーションから収集された 33 のタスクを含む、自己作成のデータセットを使用して AutoDroid-0shot を評価します。
タスクの 39.39% を正常に完了でき、部分完了の平均進捗率は約 66.76% です。
私たちの手法が完全に監視されていない(アプリと LLM の両方からの変更が必要ない)という事実を考慮すると、より優れたアプリ開発パラダイムやカスタム モデル トレーニングによって自動化パフォーマンスを向上できる大きな可能性があると考えています。

要約(オリジナル)

This paper introduces AutoDroid-0shot, a tool that utilizes GPT-like large language models (LLMs) to automate the interactions with Android mobile applications. Given a natural language description of a desired task, AutoDroid-0shot can automatically generate and execute actions that navigate the app to complete the task. It works by translating the app GUI state information and the available actions on the smartphone screen to natural language prompts and asking the LLM to make a choice of actions. Since the LLM is typically trained on a large amount of data including the how-to manuals of diverse software applications, it has the ability to make reasonable choices of actions based on the provided information. We evaluate AutoDroid-0shot with a self-created dataset that contains 33 tasks collected from 17 Android applications spanning 10 categories. It can successfully complete 39.39% of the tasks, and the average partial completion progress is about 66.76%. Given the fact that our method is fully unsupervised (no modification required from both the app and the LLM), we believe there is great potential to enhance automation performance with better app development paradigms and/or custom model training.

arxiv情報

著者 Hao Wen,Hongming Wang,Jiaxuan Liu,Yuanchun Li
発行日 2023-11-24 12:33:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク