AgentStudio: A Toolkit for Building General Virtual Agents

要約

一般的な仮想エージェントは、マルチモーダルな観察を処理し、複雑なアクション スペースを習得し、動的なオープン ドメイン環境で自己改善する必要があります。
ただし、既存の環境はドメイン固有であることが多く、複雑なセットアップが必要なため、実際の設定でのエージェントの開発と評価が制限されます。
その結果、現在の評価には、エージェントの基本的な能力を分解する詳細な分析が欠けています。
これらの問題に対処するための環境、ツール、ベンチマークの三位一体である AgentStudio を紹介します。
AgentStudio は、ビデオ観察や GUI/API アクションなど、非常に汎用的な観察およびアクション スペースを備えた軽量で対話型の環境を提供します。
オンライン ベンチマーク タスクの作成、GUI 要素の注釈付け、ビデオ内のアクションのラベル付けのためのツールが統合されています。
当社の環境とツールに基づいて、効率的な自動評価を使用して GUI 操作と関数呼び出しの両方をベンチマークするオンライン タスク スイートを厳選します。
また、ツールを使用して既存のデータセットを再編成し、新しいデータセットを収集して、GroundUI、IDMBench、CriticBench の 3 つのデータセットを確立します。
これらのデータセットは、GUI の基礎付け、ビデオからの学習、成功の検出などの基本的なエージェントの能力を評価し、堅牢で一般的で制限のない仮想エージェントの要望を示します。

要約(オリジナル)

General virtual agents need to handle multimodal observations, master complex action spaces, and self-improve in dynamic, open-domain environments. However, existing environments are often domain-specific and require complex setups, which limits agent development and evaluation in real-world settings. As a result, current evaluations lack in-depth analyses that decompose fundamental agent capabilities. We introduce AgentStudio, a trinity of environments, tools, and benchmarks to address these issues. AgentStudio provides a lightweight, interactive environment with highly generic observation and action spaces, e.g., video observations and GUI/API actions. It integrates tools for creating online benchmark tasks, annotating GUI elements, and labeling actions in videos. Based on our environment and tools, we curate an online task suite that benchmarks both GUI interactions and function calling with efficient auto-evaluation. We also reorganize existing datasets and collect new ones using our tools to establish three datasets: GroundUI, IDMBench, and CriticBench. These datasets evaluate fundamental agent abilities, including GUI grounding, learning from videos, and success detection, pointing to the desiderata for robust, general, and open-ended virtual agents.

arxiv情報

著者 Longtao Zheng,Zhiyuan Huang,Zhenghai Xue,Xinrun Wang,Bo An,Shuicheng Yan
発行日 2024-10-02 17:56:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク