Crowd-Aware Multi-Agent Pathfinding With Boosted Curriculum Reinforcement Learning


混雑した環境におけるマルチエージェント パス検索 (MAPF) は、システム内のすべてのエージェントの衝突のないパスを見つけることを目的とした動作計画において、困難な問題を引き起こします。
MAPF は、空中群集、自律型倉庫ロボット工学、自動運転車など、さまざまな分野で幅広い用途に使用されています。
MAPF の現在のアプローチは、集中型計画と分散型計画という 2 つの主要カテゴリに大別できます。
このペーパーでは、強化されたカリキュラムベースのトレーニング戦略によって導かれた強化学習を活用することで、この問題に対処する群衆を意識した分散型アプローチである CRAMP を紹介します。
私たちはシミュレートされた環境で CRAMP をテストし、私たちの方法がさまざまな指標で MAPF の最先端の分散型方法よりも優れていることを実証します。
CRAMP は、以前の方法と比較して、メイクスパンと衝突回数で測定されたソリューションの品質を最大 58%、成功率で最大 5% 向上させます。


Multi-Agent Path Finding (MAPF) in crowded environments presents a challenging problem in motion planning, aiming to find collision-free paths for all agents in the system. MAPF finds a wide range of applications in various domains, including aerial swarms, autonomous warehouse robotics, and self-driving vehicles. The current approaches for MAPF can be broadly categorized into two main categories: centralized and decentralized planning. Centralized planning suffers from the curse of dimensionality and thus does not scale well in large and complex environments. On the other hand, decentralized planning enables agents to engage in real-time path planning within a partially observable environment, demonstrating implicit coordination. However, they suffer from slow convergence and performance degradation in dense environments. In this paper, we introduce CRAMP, a crowd-aware decentralized approach to address this problem by leveraging reinforcement learning guided by a boosted curriculum-based training strategy. We test CRAMP on simulated environments and demonstrate that our method outperforms the state-of-the-art decentralized methods for MAPF on various metrics. CRAMP improves the solution quality up to 58% measured in makespan and collision count, and up to 5% in success rate in comparison to previous methods.


著者 Phu Pham,Aniket Bera
発行日 2023-09-19 03:02:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO パーマリンク