LNS2+RL: Combining Multi-Agent Reinforcement Learning with Large Neighborhood Search in Multi-Agent Path Finding

要約

マルチエージェント経路探索 (MAPF) は、物流および倉庫管理の重要なコンポーネントであり、既知の環​​境内でロボットのチームが衝突しない経路を計画することに重点を置いています。
最近の研究では、新しい MAPF アプローチである LNS2 が導入されました。これは、高速ではありますが、品質は低い優先順位付けされた計画 (PP) アルゴリズムに依存することにより、反復的な再計画によって迅速に取得された実行不可能なパスのセットを修復することを提案しました。
同時に、最近では、マルチエージェント強化学習 (MARL) ベースの MAPF アルゴリズムが推進されています。MAPF アルゴリズムは、そのような PP アルゴリズムよりも協調性が向上していますが、速度は必然的に低下します。
このホワイト ペーパーでは、新しい MAPF アルゴリズムである LNS2+RL を紹介します。これは、LNS2 と MARL の独特でありながら補完的な特性を組み合わせて、それぞれの制限を効果的にバランスさせ、両方の長所を最大限に活用します。
初期の反復中、LNS2+RL は低レベルの再計画のために MARL に依存します。これにより、PP アルゴリズムよりもはるかに衝突が排除されることがわかります。
そこでは、MARL ベースのプランナーを使用して、エージェントが過去と将来の情報を推論し、綿密に設計されたカリキュラム学習を通じて協力的な意思決定を徐々​​に学習できるようにします。
計画の後期段階では、LNS2+RL は PP アルゴリズムに適応的に切り替えて残りの衝突を迅速に解決し、当然のことながら、ソリューションの品質 (ソリューション内の衝突の数) と計算効率をトレードオフします。
さまざまなチーム規模、世界規模、マップ構造にわたる高密度エージェント密度タスクに関する包括的な実験では、LNS2、LaCAM、EECBS、SCRIMP などの多くの MAPF アルゴリズムと比較して、LNS2+RL の優れたパフォーマンスが一貫して実証されています。
複雑な構造を持つマップでは、LNS2+RL の利点が特に顕著で、LNS2+RL はテストされたタスクのほぼ半分で 50% 以上の成功率を達成しましたが、LaCAM、EECBS、および SCRIMP の成功率は 0% に低下しました。

要約(オリジナル)

Multi-Agent Path Finding (MAPF) is a critical component of logistics and warehouse management, which focuses on planning collision-free paths for a team of robots in a known environment. Recent work introduced a novel MAPF approach, LNS2, which proposed to repair a quickly obtained set of infeasible paths via iterative replanning, by relying on a fast, yet lower-quality, prioritized planning (PP) algorithm. At the same time, there has been a recent push for Multi-Agent Reinforcement Learning (MARL) based MAPF algorithms, which exhibit improved cooperation over such PP algorithms, although inevitably remaining slower. In this paper, we introduce a new MAPF algorithm, LNS2+RL, which combines the distinct yet complementary characteristics of LNS2 and MARL to effectively balance their individual limitations and get the best from both worlds. During early iterations, LNS2+RL relies on MARL for low-level replanning, which we show eliminates collisions much more than a PP algorithm. There, our MARL-based planner allows agents to reason about past and future information to gradually learn cooperative decision-making through a finely designed curriculum learning. At later stages of planning, LNS2+RL adaptively switches to PP algorithm to quickly resolve the remaining collisions, naturally trading off solution quality (number of collisions in the solution) and computational efficiency. Our comprehensive experiments on high-agent-density tasks across various team sizes, world sizes, and map structures consistently demonstrate the superior performance of LNS2+RL compared to many MAPF algorithms, including LNS2, LaCAM, EECBS, and SCRIMP. In maps with complex structures, the advantages of LNS2+RL are particularly pronounced, with LNS2+RL achieving a success rate of over 50% in nearly half of the tested tasks, while that of LaCAM, EECBS and SCRIMP falls to 0%.

arxiv情報

著者 Yutong Wang,Tanishq Duhan,Jiaoyang Li,Guillaume Sartoretti
発行日 2025-01-09 15:15:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク