要約
人間のタスクを達成するためにコンピュータ インターフェイスを制御する自律エージェントが出現しています。
このようなエージェントを強化するために LLM を活用することは特に興味深いものですが、人間が収集したタスクのデモンストレーションに基づいて微調整しない限り、パフォーマンスは依然として比較的低いです。
この研究では、微調整のみが現実世界のコンピュータ制御エージェントを構築するための実行可能なアプローチであるかどうかを研究します。
特に、より多くのトレーニング データが収集されるにつれて、ドメイン内およびドメイン外のスケールで高レベルと低レベルのタスクの両方でパフォーマンスがどのように測定されるかを調査します。
この目的を達成するために、Android アプリを使用した日常的なタスクの 15,283 件のデモンストレーションで構成される新しいデータセット AndroidControl を収集してリリースします。
既存のデータセットと比較すると、各 AndroidControl タスク インスタンスには人間が生成した高レベルと低レベルの両方の命令が含まれているため、エージェントが処理できるタスクの複雑さのレベルを調査できます。
さらに、AndroidControl は、833 個の Android アプリにわたる 14,548 個の固有タスクを含む、これまでで最も多様なコンピューター制御データセットであるため、トレーニング データのドメインの内外でモデルのパフォーマンスの詳細な分析を行うことができます。
このデータセットを使用すると、ドメインで微調整されたモデルでテストすると、ゼロショットや数ショットのベースラインよりも優れたパフォーマンスを発揮し、より多くのデータを収集するだけで確実なパフォーマンスが得られる可能性がある方法でスケールできることがわかりました。
ドメイン外では、パフォーマンスの拡張が大幅に遅くなり、特に高レベルのタスクの場合、より多くのデータを微調整するだけでは堅牢なドメイン外パフォーマンスを達成するには不十分である可能性があることが示唆されています。
要約(オリジナル)
Autonomous agents that control computer interfaces to accomplish human tasks are emerging. Leveraging LLMs to power such agents has been of special interest, but unless fine-tuned on human-collected task demonstrations, performance is still relatively low. In this work we study whether fine-tuning alone is a viable approach for building real-world computer control agents. In particularly, we investigate how performance measured on both high and low-level tasks in domain and out of domain scales as more training data is collected. To this end we collect and release a new dataset, AndroidControl, consisting of 15,283 demonstrations of everyday tasks with Android apps. Compared to existing datasets, each AndroidControl task instance includes both high and low-level human-generated instructions, allowing us to explore the level of task complexity an agent can handle. Moreover, AndroidControl is the most diverse computer control dataset to date, including 14,548 unique tasks over 833 Android apps, thus allowing us to conduct in-depth analysis of the model performance in and out of the domain of the training data. Using the dataset, we find that when tested in domain fine-tuned models outperform zero and few-shot baselines and scale in such a way that robust performance might feasibly be obtained simply by collecting more data. Out of domain, performance scales significantly more slowly and suggests that in particular for high-level tasks, fine-tuning on more data alone may be insufficient for achieving robust out-of-domain performance.
arxiv情報
著者 | Wei Li,William Bishop,Alice Li,Chris Rawles,Folawiyo Campbell-Ajala,Divya Tyamagundlu,Oriana Riva |
発行日 | 2024-11-13 16:42:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google