要約
動的環境で複数の具体化されたエージェントを調整することは、人工知能の中心的な課題であり、知覚主導の推論とスケーラブルな協力戦略の両方を必要とします。
最近の作品は、マルチエージェント計画のために大規模な言語モデル(LLM)を活用していますが、視覚的推論のためにビジョン言語モデル(VLMS)を探求し始めた人もいます。
ただし、これらのVLMベースのアプローチは、多様な具体化タイプをサポートするために限られたままです。
この作業では、具体化されたマルチエージェント協力のために調整された最初の階層ベンチマークであるViki-Benchを紹介します。
Viki-Benchには、多様なロボットの実施形態、マルチビューの視覚観測、および視覚入力に基づいた推論を評価するための構造化された監督シグナルが含まれています。
Viki-benchの有用性を実証するために、チェーン思考の注釈付きデモンストレーションを使用して、前処理されたビジョン言語モデル(VLM)を微調整する2段階のフレームワークであるViki-Rを提案し、その後、マルチレベルの報酬信号の下での強化学習が続きます。
私たちの広範な実験は、VIKI-Rがすべてのタスクレベルでベースライン法を大幅に上回ることを示しています。
さらに、強化学習により、不均一なエージェント間の組成協力パターンの出現が可能になることを示しています。
一緒に、Viki-BenchとViki-Rは、具体化されたAIシステムにおけるマルチエージェントの視覚的駆動型の協力を進めるための統一されたテストベンチと方法を提供します。
要約(オリジナル)
Coordinating multiple embodied agents in dynamic environments remains a core challenge in artificial intelligence, requiring both perception-driven reasoning and scalable cooperation strategies. While recent works have leveraged large language models (LLMs) for multi-agent planning, a few have begun to explore vision-language models (VLMs) for visual reasoning. However, these VLM-based approaches remain limited in their support for diverse embodiment types. In this work, we introduce VIKI-Bench, the first hierarchical benchmark tailored for embodied multi-agent cooperation, featuring three structured levels: agent activation, task planning, and trajectory perception. VIKI-Bench includes diverse robot embodiments, multi-view visual observations, and structured supervision signals to evaluate reasoning grounded in visual inputs. To demonstrate the utility of VIKI-Bench, we propose VIKI-R, a two-stage framework that fine-tunes a pretrained vision-language model (VLM) using Chain-of-Thought annotated demonstrations, followed by reinforcement learning under multi-level reward signals. Our extensive experiments show that VIKI-R significantly outperforms baselines method across all task levels. Furthermore, we show that reinforcement learning enables the emergence of compositional cooperation patterns among heterogeneous agents. Together, VIKI-Bench and VIKI-R offer a unified testbed and method for advancing multi-agent, visual-driven cooperation in embodied AI systems.
arxiv情報
著者 | Li Kang,Xiufeng Song,Heng Zhou,Yiran Qin,Jie Yang,Xiaohong Liu,Philip Torr,Lei Bai,Zhenfei Yin |
発行日 | 2025-06-10 17:59:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google