MASP: Scalable GNN-based Planning for Multi-Agent Navigation

要約

私たちは、複数のエージェントが限られた時間内に最初に割り当てられていない目標に到達する必要がある、マルチエージェント ナビゲーション タスクを調査します。
従来の計画ベースの手法では、各ステップで高価な計算オーバーヘッドが発生し、複雑な連携戦略の表現力が限られています。
対照的に、強化学習 (RL) は、この問題に対処するためのアプローチとして最近一般的になってきています。
ただし、RL は、特にエージェント数が増加した場合 (例: 10 人以上のエージェント)、または複雑な環境 (例: 3D シミュレータ) で、大規模な探索空間で (ほぼ) 最適なポリシーを直接探索する場合、低いデータ効率と協力に苦戦します。

この論文では、分散設定で多数のエージェントを使用するナビゲーション タスクのための目標条件付き階層プランナーであるマルチエージェント スケーラブル グラフベース プランナー (MASP) を提案します。
MASP は、階層型フレームワークを採用して、大規模な探索空間を複数の目標条件付きサブ空間に分解することで空間の複雑さを軽減します。高レベルのポリシーはエージェントの目標を割り当て、低レベルのポリシーは指定された目標に向かってエージェントをナビゲートします。
エージェントの協力とさまざまなチームサイズへの適応のために、エージェントと目標をグラフとしてモデル化し、それらの関係をより適切に把握します。
高レベルのポリシーであるゴール マッチャーは、グラフベースのセルフ エンコーダーとクロス エンコーダーを利用して、エージェントと目標のグラフを更新することで目標の割り当てを最適化します。
低レベルのポリシーである調整アクション実行者は、グループ情報の融合を導入して、グループ分割を促進し、グループ間のエージェント関係を抽出し、エージェント協力のためのトレーニング効率を高めます。
結果は、MASP がタスク効率において RL および計画ベースのベースラインよりも優れていることを示しています。

要約(オリジナル)

We investigate multi-agent navigation tasks, where multiple agents need to reach initially unassigned goals in a limited time. Classical planning-based methods suffer from expensive computation overhead at each step and offer limited expressiveness for complex cooperation strategies. In contrast, reinforcement learning (RL) has recently become a popular approach for addressing this issue. However, RL struggles with low data efficiency and cooperation when directly exploring (nearly) optimal policies in a large exploration space, especially with an increased number of agents(e.g., 10+ agents) or in complex environments (e.g., 3-D simulators). In this paper, we propose the Multi-Agent Scalable Graph-based Planner (MASP), a goal-conditioned hierarchical planner for navigation tasks with a substantial number of agents in the decentralized setting. MASP employs a hierarchical framework to reduce space complexity by decomposing a large exploration space into multiple goal-conditioned subspaces, where a high-level policy assigns agents goals, and a low-level policy navigates agents toward designated goals. For agent cooperation and the adaptation to varying team sizes, we model agents and goals as graphs to better capture their relationship. The high-level policy, the Goal Matcher, leverages a graph-based Self-Encoder and Cross-Encoder to optimize goal assignment by updating the agent and the goal graphs. The low-level policy, the Coordinated Action Executor, introduces the Group Information Fusion to facilitate group division and extract agent relationships across groups, enhancing training efficiency for agent cooperation. The results demonstrate that MASP outperforms RL and planning-based baselines in task efficiency.

arxiv情報

著者 Xinyi Yang,Xinting Yang,Chao Yu,Jiayu Chen,Wenbo Ding,Huazhong Yang,Yu Wang
発行日 2024-12-02 12:49:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク