TeamCraft: A Benchmark for Multi-Modal Multi-Agent Systems in Minecraft

要約

コラボレーションは社会の基礎です。
現実の世界では、人間のチームメイトは多感覚データを利用して、絶えず変化する環境で困難なタスクに取り組みます。
動的インタラクションに満ちた視覚的に豊かな環境で協働する身体化エージェントにとって、マルチモーダルな観察とタスクの仕様を理解することは不可欠です。
一般化可能なマルチモーダル協調エージェントのパフォーマンスを評価するために、オープンワールド ビデオ ゲーム Minecraft 上に構築されたマルチモーダル マルチエージェント ベンチマークである TeamCraft を紹介します。
このベンチマークには、マルチモーダル プロンプトによって指定された 55,000 のタスク バリアント、模倣学習用に手続き的に生成された専門家によるデモンストレーション、およびモデルの一般化機能を評価するための慎重に設計されたプロトコルが含まれています。
また、既存のアプローチの限界と強みをより深く理解するために広範な分析も実行します。
私たちの結果は、既存のモデルが、新しい目標、シーン、目に見えない数のエージェントに一般化する際に、引き続き大きな課題に直面していることを示しています。
これらの発見は、この分野におけるさらなる研究の必要性を強調しています。
TeamCraft プラットフォームとデータセットは、https://github.com/teamcraft-bench/teamcraft で公開されています。

要約(オリジナル)

Collaboration is a cornerstone of society. In the real world, human teammates make use of multi-sensory data to tackle challenging tasks in ever-changing environments. It is essential for embodied agents collaborating in visually-rich environments replete with dynamic interactions to understand multi-modal observations and task specifications. To evaluate the performance of generalizable multi-modal collaborative agents, we present TeamCraft, a multi-modal multi-agent benchmark built on top of the open-world video game Minecraft. The benchmark features 55,000 task variants specified by multi-modal prompts, procedurally-generated expert demonstrations for imitation learning, and carefully designed protocols to evaluate model generalization capabilities. We also perform extensive analyses to better understand the limitations and strengths of existing approaches. Our results indicate that existing models continue to face significant challenges in generalizing to novel goals, scenes, and unseen numbers of agents. These findings underscore the need for further research in this area. The TeamCraft platform and dataset are publicly available at https://github.com/teamcraft-bench/teamcraft.

arxiv情報

著者 Qian Long,Zhi Li,Ran Gong,Ying Nian Wu,Demetri Terzopoulos,Xiaofeng Gao
発行日 2024-12-06 18:41:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MA パーマリンク