Android in the Wild: A Large-Scale Dataset for Android Device Control

要約

人間の自然言語命令を解釈し、ユーザー インターフェイスを直接制御することでデジタル デバイス上で実行できるデバイス制御システムへの関心が高まっています。
私たちは、現在のデータセットよりも桁違いに大きい、デバイス制御研究用のデータセットである Android in the Wild (AITW) を紹介します。
データセットには、画面やアクションなどのデバイス操作の人間によるデモンストレーションと、対応する自然言語の指示が含まれています。
これは、30,000 の固有の命令、4 つのバージョンの Android (v10 ~ 13)、およびさまざまな画面解像度を備えた 8 つのデバイス タイプ (Pixel 2 XL ~ Pixel 6) にわたる 715,000 のエピソードで構成されています。
これには、言語と視覚的なコンテキストの意味的理解を必要とする複数のステップのタスクが含まれています。
このデータセットは、ユーザー インターフェイスを通じて利用できるアクションをその見た目から推測する必要があるという新たな課題を引き起こしています。
また、単純な UI 要素ベースのアクションの代わりに、アクション スペースは正確なジェスチャ (カルーセル ウィジェットを操作するための水平スクロールなど) で構成されます。
私たちは、デバイス制御システムの堅牢性分析、つまり、新しいタスクの説明、新しいアプリケーション、または新しいプラットフォームのバージョンが存在する中でシステムがどの程度うまく機能するかを促進するためにデータセットを整理します。
2 つのエージェントを開発し、データセット全体のパフォーマンスを報告します。
データセットは https://github.com/google-research/google-research/tree/master/android_in_the_wild で入手できます。

要約(オリジナル)

There is a growing interest in device-control systems that can interpret human natural language instructions and execute them on a digital device by directly controlling its user interface. We present a dataset for device-control research, Android in the Wild (AITW), which is orders of magnitude larger than current datasets. The dataset contains human demonstrations of device interactions, including the screens and actions, and corresponding natural language instructions. It consists of 715k episodes spanning 30k unique instructions, four versions of Android (v10-13),and eight device types (Pixel 2 XL to Pixel 6) with varying screen resolutions. It contains multi-step tasks that require semantic understanding of language and visual context. This dataset poses a new challenge: actions available through the user interface must be inferred from their visual appearance. And, instead of simple UI element-based actions, the action space consists of precise gestures (e.g., horizontal scrolls to operate carousel widgets). We organize our dataset to encourage robustness analysis of device-control systems, i.e., how well a system performs in the presence of new task descriptions, new applications, or new platform versions. We develop two agents and report performance across the dataset. The dataset is available at https://github.com/google-research/google-research/tree/master/android_in_the_wild.

arxiv情報

著者 Christopher Rawles,Alice Li,Daniel Rodriguez,Oriana Riva,Timothy Lillicrap
発行日 2023-07-19 15:57:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.LG パーマリンク