AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents

要約

コンピュータを制御して人間のタスクを実行する自律エージェントは、人間の生産性とアプリケーションのアクセシビリティを向上させることができます。
ただし、この分野の進歩は現実的で再現可能なベンチマークによって推進されます。
私たちは、20 の実際の Android アプリにわたる 116 のプログラム タスクに対する報酬シグナルを提供する、完全に機能する Android 環境である AndroidWorld を紹介します。
静的なテスト セットを提供する既存のインタラクティブ環境とは異なり、AndroidWorld は、パラメーター化され、無制限の方法で自然言語で表現されるタスクを動的に構築するため、より大規模で現実的な一連のタスクのテストが可能になります。
報酬シグナルはコンピューターのシステム状態から派生するため、タスクの変化に対して耐久性があり、さまざまなアプリにわたって拡張可能です。
AndroidWorld の利点と動作モードを実証するために、新しいコンピューター制御エージェント M3A を紹介します。
M3A は AndroidWorld のタスクの 30.6% を完了でき、将来の作業に十分な余地を残しています。
さらに、人気のあるデスクトップ Web エージェントを Android で動作するように適応させましたが、モバイルでは効果が低いことがわかっており、ユニバーサルなクロスドメイン エージェントを実現するには将来の研究が必要であることが示唆されています。
最後に、代表的なタスクのサブセットでさまざまなタスクの変動に対して M3A をテストすることによって堅牢性分析を実行します。これにより、タスク パラメータの変動によってタスクの複雑さが大幅に変化し、その結果エージェントのパフォーマンスが大きく変化する可能性があることが実証され、以下の条件下でエージェントをテストすることの重要性が強調されます。
さまざまな条件。
AndroidWorld とこの論文の実験は https://github.com/google-research/android_world から入手できます。

要約(オリジナル)

Autonomous agents that execute human tasks by controlling computers can enhance human productivity and application accessibility. However, progress in this field will be driven by realistic and reproducible benchmarks. We present AndroidWorld, a fully functional Android environment that provides reward signals for 116 programmatic tasks across 20 real-world Android apps. Unlike existing interactive environments, which provide a static test set, AndroidWorld dynamically constructs tasks that are parameterized and expressed in natural language in unlimited ways, thus enabling testing on a much larger and more realistic suite of tasks. Reward signals are derived from the computer’s system state, making them durable across task variations and extensible across different apps. To demonstrate AndroidWorld’s benefits and mode of operation, we introduce a new computer control agent, M3A. M3A can complete 30.6% of the AndroidWorld’s tasks, leaving ample room for future work. Furthermore, we adapt a popular desktop web agent to work on Android, which we find to be less effective on mobile, suggesting future research is needed to achieve universal, cross-domain agents. Finally, we conduct a robustness analysis by testing M3A against a range of task variations on a representative subset of tasks, demonstrating that variations in task parameters can significantly alter a task’s complexity and, consequently, an agent’s performance, highlighting the importance of testing agents under diverse conditions. AndroidWorld and the experiments in this paper are available at https://github.com/google-research/android_world.

arxiv情報

著者 Christopher Rawles,Sarah Clinckemaillie,Yifan Chang,Jonathan Waltz,Gabrielle Lau,Marybeth Fair,Alice Li,William Bishop,Wei Li,Folawiyo Campbell-Ajala,Daniel Toyama,Robert Berry,Divya Tyamagundlu,Timothy Lillicrap,Oriana Riva
発行日 2024-06-10 17:30:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク