LNS2+RL: Combining Multi-agent Reinforcement Learning with Large Neighborhood Search in Multi-agent Path Finding

要約

マルチエージェント経路探索 (MAPF) は、物流および倉庫管理の重要なコンポーネントであり、既知の環​​境内でロボットのチームが衝突しない経路を計画することに重点を置いています。
最近の研究では、新しい MAPF アプローチである LNS2 が導入されました。これは、高速ではあるが低品質の優先順位ベースのプランナーに依存することにより、反復的な再計画により、迅速に取得可能な実行不可能なパスのセットを修復することを提案しました。
同時に、最近では、マルチエージェント強化学習 (MARL) ベースの MAPF アルゴリズムが推進されています。これにより、エージェントは、そのような優先計画に対して改善された協力を示す分散型ポリシーを学習できるようになりますが、速度は必然的に低下します。
このホワイト ペーパーでは、新しい MAPF アルゴリズムである LNS2+RL を紹介します。これは、LNS2 と MARL の独特でありながら補完的な特性を組み合わせて、それぞれの制限を効果的にバランスさせ、両方の長所を最大限に活用します。
初期の反復中、LNS2+RL は低レベルの再計画のために MARL に依存します。これにより、優先順位ベースのプランナーよりもはるかに衝突が排除されることがわかります。
そこでは、MARL ベースのプランナーを使用して、エージェントが過去および将来/予測情報について推論し、綿密に設計されたカリキュラム学習を通じて協力的な意思決定を徐々​​に学習できるようにします。
計画の後期段階では、LNS2+RL は優先度ベースの計画に適応的に切り替えて残りの衝突を迅速に解決し、当然のことながらソリューションの品質と計算効率をトレードオフします。
さまざまなチーム規模、世界規模、マップ構造にわたる困難なタスクに関する包括的な実験では、LNS2、LaCAM、EECBS を含む多くの MAPF アルゴリズムと比較して、LNS2+RL の優れたパフォーマンスが一貫して実証されており、LNS2+RL は複雑な領域で大幅に優れたパフォーマンスを示しています。
シナリオ。
最後に、100 台の (現実世界とシミュレートされた) ロボットのチームが関与する倉庫モックアップのハイブリッド シミュレーションでアルゴリズムを実験的に検証します。

要約(オリジナル)

Multi-Agent Path Finding (MAPF) is a critical component of logistics and warehouse management, which focuses on planning collision-free paths for a team of robots in a known environment. Recent work introduced a novel MAPF approach, LNS2, which proposed to repair a quickly-obtainable set of infeasible paths via iterative re-planning, by relying on a fast, yet lower-quality, priority-based planner. At the same time, there has been a recent push for Multi-Agent Reinforcement Learning (MARL) based MAPF algorithms, which let agents learn decentralized policies that exhibit improved cooperation over such priority planning, although inevitably remaining slower. In this paper, we introduce a new MAPF algorithm, LNS2+RL, which combines the distinct yet complementary characteristics of LNS2 and MARL to effectively balance their individual limitations and get the best from both worlds. During early iterations, LNS2+RL relies on MARL for low-level re-planning, which we show eliminates collisions much more than a priority-based planner. There, our MARL-based planner allows agents to reason about past and future/predicted information to gradually learn cooperative decision-making through a finely designed curriculum learning. At later stages of planning, LNS2+RL adaptively switches to priority-based planning to quickly resolve the remaining collisions, naturally trading-off solution quality and computational efficiency. Our comprehensive experiments on challenging tasks across various team sizes, world sizes, and map structures consistently demonstrate the superior performance of LNS2+RL compared to many MAPF algorithms, including LNS2, LaCAM, and EECBS, where LNS2+RL shows significantly better performance in complex scenarios. We finally experimentally validate our algorithm in a hybrid simulation of a warehouse mockup involving a team of 100 (real-world and simulated) robots.

arxiv情報

著者 Yutong Wang,Tanishq Duhan,Jiaoyang Li,Guillaume Sartoretti
発行日 2024-05-28 03:45:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク