AgentStudio: A Toolkit for Building General Virtual Agents


あらゆるデジタル デバイス上で任意のソフトウェアを使用できる自律型仮想エージェントを作成することは、依然として人工知能にとっての大きな課題です。
2 つの重要な障害が進歩を妨げています。それは、現実世界の環境で仮想エージェントを構築するためのインフラストラクチャが不十分であること、および基本的なエージェント能力を実際に評価する必要があることです。
これに対処するために、エージェント開発のライフサイクル全体をカバーするオンラインで現実的なマルチモーダル ツールキットである AgentStudio を導入します。
観察スペースとアクション スペースは非常に汎用的で、関数呼び出しと人間とコンピューターのインターフェイスの両方をサポートしています。
この多用途性は、AgentStudio のグラフィカル ユーザー インターフェイスによってさらに強化され、現実世界の設定でデータセットとベンチマークを効率的に開発できるようになります。
説明のために、視覚的なグラウンディング データセットと現実世界のベンチマーク スイートを紹介します。どちらもグラフィカル インターフェイスで作成されました。
さらに、AgentStudio から得られたいくつかの実用的な洞察 (一般的なビジュアル基礎、自由なツール作成、ビデオからの学習など) を紹介します。私たちは、一般的な仮想環境の開発に向けた研究を促進するために、環境、データセット、ベンチマーク、インターフェイスをオープンソース化しました。


Creating autonomous virtual agents capable of using arbitrary software on any digital device remains a major challenge for artificial intelligence. Two key obstacles hinder progress: insufficient infrastructure for building virtual agents in real-world environments, and the need for in-the-wild evaluation of fundamental agent abilities. To address this, we introduce AgentStudio, an online, realistic, and multimodal toolkit that covers the entire lifecycle of agent development. This includes environment setups, data collection, agent evaluation, and visualization. The observation and action spaces are highly generic, supporting both function calling and human-computer interfaces. This versatility is further enhanced by AgentStudio’s graphical user interfaces, which allow efficient development of datasets and benchmarks in real-world settings. To illustrate, we introduce a visual grounding dataset and a real-world benchmark suite, both created with our graphical interfaces. Furthermore, we present several actionable insights derived from AgentStudio, e.g., general visual grounding, open-ended tool creation, learning from videos, etc. We have open-sourced the environments, datasets, benchmarks, and interfaces to promote research towards developing general virtual agents for the future.


著者 Longtao Zheng,Zhiyuan Huang,Zhenghai Xue,Xinrun Wang,Bo An,Shuicheng Yan
発行日 2024-03-26 17:54:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI パーマリンク