要約
モバイル タスクの自動化は、スマートフォンとの音声ベースのハンズフリー ユーザー インタラクションを可能にすることを目的とした魅力的な技術です。
しかし、既存のアプローチは、言語理解能力が限られていることと、開発者やエンドユーザーに必要な手作業が少なくないため、スケーラビリティが低いという問題があります。
言語の理解と推論における大規模言語モデル (LLM) の最近の進歩は、タスクの準備、理解、実行が統一言語モデルによって処理されるモデル中心の観点から問題を再考するよう促しています。
この作業では、手作業なしで Android アプリケーション上の任意のタスクを処理できるモバイル タスク自動化システムである AutoDroid を紹介します。
重要な洞察は、自動化された動的分析を通じて、LLM の常識的な知識とアプリのドメイン固有の知識を組み合わせることです。
主なコンポーネントには、UI と LLM を橋渡しする機能を意識した UI 表現方法、LLM のアプリ固有のドメイン知識を強化する探索ベースのメモリ注入技術、モデルのコストを削減する複数粒度のクエリ最適化モジュールが含まれます。
推論。
AutoDroid をオンライン GPT-4/GPT-3.5 やオンデバイス Vicuna などの既製 LLM と統合し、158 の一般的なタスクによるメモリ拡張 Android タスク自動化の新しいベンチマークでそのパフォーマンスを評価します。
その結果、AutoDroid は 90.9% の精度で正確にアクションを生成し、71.3% の成功率でタスクを完了でき、GPT-4 を利用したベースラインを 36.4% および 39.7% 上回っていることが実証されました。
AutoDroid のデモ、ベンチマーク スイート、ソース コードは https://autodroid-sys.github.io/ でリリースされます。
要約(オリジナル)
Mobile task automation is an attractive technique that aims to enable voice-based hands-free user interaction with smartphones. However, existing approaches suffer from poor scalability due to the limited language understanding ability and the non-trivial manual efforts required from developers or end-users. The recent advance of large language models (LLMs) in language understanding and reasoning inspires us to rethink the problem from a model-centric perspective, where task preparation, comprehension, and execution are handled by a unified language model. In this work, we introduce AutoDroid, a mobile task automation system that can handle arbitrary tasks on any Android application without manual efforts. The key insight is to combine the commonsense knowledge of LLMs and domain-specific knowledge of apps through automated dynamic analysis. The main components include a functionality-aware UI representation method that bridges the UI with the LLM, exploration-based memory injection techniques that augment the app-specific domain knowledge of LLM, and a multi-granularity query optimization module that reduces the cost of model inference. We integrate AutoDroid with off-the-shelf LLMs including online GPT-4/GPT-3.5 and on-device Vicuna, and evaluate its performance on a new benchmark for memory-augmented Android task automation with 158 common tasks. The results demonstrated that AutoDroid is able to precisely generate actions with an accuracy of 90.9%, and complete tasks with a success rate of 71.3%, outperforming the GPT-4-powered baselines by 36.4% and 39.7%. The demo, benchmark suites, and source code of AutoDroid will be released at https://autodroid-sys.github.io/.
arxiv情報
著者 | Hao Wen,Yuanchun Li,Guohong Liu,Shanhui Zhao,Tao Yu,Toby Jia-Jun Li,Shiqi Jiang,Yunhao Liu,Yaqin Zhang,Yunxin Liu |
発行日 | 2023-08-29 13:02:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google