SCRIMP: Scalable Communication for Reinforcement- and Imitation-Learning-Based Multi-Agent Pathfinding

要約

マルチエージェント経路探索 (MAPF) コミュニティは、スケーラビリティを優先してパフォーマンスの保証をトレードオフし、最近、マルチエージェント強化学習 (MARL) を採用し始めました。MARL では、エージェントは、衝突のない (ただし最適ではないことが多い) 個々の経路を共同で生成することを学びます。
.
スケーラビリティは通常、エージェントの周囲のローカル視野 (FOV) を想定することで実現され、任意のワールド サイズにスケーリングするのに役立ちます。
ただし、この仮定により、エージェントが利用できる情報量が大幅に制限され、より密度の高い MAPF タスクで必要なタイプのジョイント操作を実行することが難しくなります。
この論文では、変更されたトランスフォーマーに基づく高度にスケーラブルなグローバル/ローカル通信メカニズムに依存することにより、エージェントが非常に小さな (3×3 までの) FOV からでも個々のポリシーを学習する SCRIMP を提案します。
さらに、エージェントに状態値ベースのタイブレーク戦略を装備して、対称的な状況でのパフォーマンスをさらに改善し、長期的なクレジット割り当ての問題を軽減しながら探索を促進する本質的な報酬を導入します。
一連の実験での経験的評価は、SCRIMP がより大きな FOV を持つ他の最先端の学習ベースの MAPF プランナーと比較してスケーラビリティが向上し、より高いパフォーマンスを達成できることを示しています。
切除研究は、提案された技術の有効性をさらに検証します。
最後に、ガゼボでの忠実度の高いシミュレーションを通じて、トレーニング済みのモデルをオンライン MAPF 用の実際のロボットに直接実装できることを示します。

要約(オリジナル)

Trading off performance guarantees in favor of scalability, the Multi-Agent Path Finding (MAPF) community has recently started to embrace Multi-Agent Reinforcement Learning (MARL), where agents learn to collaboratively generate individual, collision-free (but often suboptimal) paths. Scalability is usually achieved by assuming a local field of view (FOV) around the agents, helping scale to arbitrary world sizes. However, this assumption significantly limits the amount of information available to the agents, making it difficult for them to enact the type of joint maneuvers needed in denser MAPF tasks. In this paper, we propose SCRIMP, where agents learn individual policies from even very small (down to 3×3) FOVs, by relying on a highly-scalable global/local communication mechanism based on a modified transformer. We further equip agents with a state-value-based tie-breaking strategy to further improve performance in symmetric situations, and introduce intrinsic rewards to encourage exploration while mitigating the long-term credit assignment problem. Empirical evaluations on a set of experiments indicate that SCRIMP can achieve higher performance with improved scalability compared to other state-of-the-art learning-based MAPF planners with larger FOVs, and even yields similar performance as a classical centralized planner in many cases. Ablation studies further validate the effectiveness of our proposed techniques. Finally, we show that our trained model can be directly implemented on real robots for online MAPF through high-fidelity simulations in gazebo.

arxiv情報

著者 Yutong Wang,Bairan Xiang,Shinan Huang,Guillaume Sartoretti
発行日 2023-03-01 15:53:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク