MASP: Scalable GNN-based Planning for Multi-Agent Navigation

要約

私たちは、複数のエージェントが限られた時間内に最初に割り当てられていないターゲットに到達する必要がある、分散型マルチエージェント ナビゲーション タスクの問題を調査します。
従来の計画ベースの手法では、各ステップで高価な計算オーバーヘッドが発生し、複雑な連携戦略の表現力が限られています。
対照的に、強化学習 (RL) は、この問題に対処するためのパラダイムとして最近よく使われるようになりました。
ただし、RL は、特にエージェント数が増加した場合 (例: 10 人以上のエージェント)、または複雑な環境 (例: 3D シミュレータ) で、大規模な検索空間で (ほぼ) 最適なポリシーを直接探索する場合、データ効率と協力性が低いことに苦労します。
この論文では、かなりの数のエージェントによるナビゲーション タスクのための目標条件付き階層プランナーであるマルチエージェント スケーラブル GNN ベース プランナー (MASP) を提案します。
MASP は階層フレームワークを採用して、大きな検索空間を複数の小さな空間に分割することで、空間の複雑さを軽減し、トレーニングの収束を加速します。
また、グラフ ニューラル ネットワーク (GNN) を活用してエージェントと目標の間の相互作用をモデル化し、目標達成を向上させます。
さらに、チームの規模が目に見えないシナリオでの汎用化機能を強化するために、エージェントを複数のグループに分割し、それぞれが事前にトレーニングされた数のエージェントで構成されます。
結果は、MASP が従来の計画ベースの競合他社や RL ベースラインよりも優れており、50 のエージェントを備えたマルチエージェント パーティクル環境 (MPE) と 50 のエージェントを備えたクアローター 3 次元環境 (OmniDrones) の両方で最小限のトレーニング データでほぼ 100% の成功率を達成していることを示しています。
エージェントは20人。
さらに、学習されたポリシーは、目に見えないチーム規模にわたるゼロショットの一般化を示しています。

要約(オリジナル)

We investigate the problem of decentralized multi-agent navigation tasks, where multiple agents need to reach initially unassigned targets in a limited time. Classical planning-based methods suffer from expensive computation overhead at each step and offer limited expressiveness for complex cooperation strategies. In contrast, reinforcement learning (RL) has recently become a popular paradigm for addressing this issue. However, RL struggles with low data efficiency and cooperation when directly exploring (nearly) optimal policies in the large search space, especially with an increased agent number (e.g., 10+ agents) or in complex environments (e.g., 3D simulators). In this paper, we propose Multi-Agent Scalable GNN-based P lanner (MASP), a goal-conditioned hierarchical planner for navigation tasks with a substantial number of agents. MASP adopts a hierarchical framework to divide a large search space into multiple smaller spaces, thereby reducing the space complexity and accelerating training convergence. We also leverage graph neural networks (GNN) to model the interaction between agents and goals, improving goal achievement. Besides, to enhance generalization capabilities in scenarios with unseen team sizes, we divide agents into multiple groups, each with a previously trained number of agents. The results demonstrate that MASP outperforms classical planning-based competitors and RL baselines, achieving a nearly 100% success rate with minimal training data in both multi-agent particle environments (MPE) with 50 agents and a quadrotor 3-dimensional environment (OmniDrones) with 20 agents. Furthermore, the learned policy showcases zero-shot generalization across unseen team sizes.

arxiv情報

著者 Xinyi Yang,Xinting Yang,Chao Yu,Jiayu Chen,Huazhong Yang,Yu Wang
発行日 2023-12-05 06:05:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク