要約
マルチエージェントパスファインディング(MAPF)は、ロジスティクスと倉庫管理の重要なコンポーネントであり、既知の環境でロボットチームの衝突のないパスの計画に焦点を当てています。
最近の研究では、新しいMAPFアプローチであるLNS2が導入されました。これは、迅速でありながら低品質の優先順位付けされた計画(PP)アルゴリズムに依存することにより、迅速に取得された反復パスのセットを反復的な再生を介して修復することを提案しました。
同時に、マルチエージェント強化学習(MARL)ベースのMAPFアルゴリズムを最近推進しており、このようなPPアルゴリズムを介した協力を改善しますが、必然的に遅いままです。
このホワイトペーパーでは、新しいMAPFアルゴリズムであるLNS2+RLを紹介します。これは、LNS2とMARLの明確なが補完的な特性を組み合わせて、個々の制限のバランスを効果的にバランスさせ、両方の世界から最高のものを得ることができます。
早期の反復中、LNS2+RLは低レベルの再生にMARLに依存しています。これは、PPアルゴリズムよりもはるかに多くの衝突を排除することを示しています。
そこで、当社のMARLベースのプランナーにより、エージェントは過去および将来の情報について推論することで、細かく設計されたカリキュラム学習を通じて協力的な意思決定を徐々に学習します。
計画の後期段階で、LNS2+RLはPPアルゴリズムに適応的に切り替えて、残りの衝突を迅速に解決し、ソリューションの品質(ソリューションの衝突の数)と計算効率を自然に取引します。
さまざまなチームサイズ、ワールドサイズ、およびマップ構造にわたる高エージェント密度タスクに関する包括的な実験は、LNS2、Lacam、EECB、およびスクリンプなど、多くのMAPFアルゴリズムと比較してLNS2+RLの優れた性能を一貫して実証しています。
複雑な構造を持つマップでは、LNS2+RLの利点は特に顕著であり、LNS2+RLはテストされたタスクのほぼ半分で50%を超える成功率を達成し、Lacam、Eecbs、およびEmpimpの成功率は0%になります。
要約(オリジナル)
Multi-Agent Path Finding (MAPF) is a critical component of logistics and warehouse management, which focuses on planning collision-free paths for a team of robots in a known environment. Recent work introduced a novel MAPF approach, LNS2, which proposed to repair a quickly obtained set of infeasible paths via iterative replanning, by relying on a fast, yet lower-quality, prioritized planning (PP) algorithm. At the same time, there has been a recent push for Multi-Agent Reinforcement Learning (MARL) based MAPF algorithms, which exhibit improved cooperation over such PP algorithms, although inevitably remaining slower. In this paper, we introduce a new MAPF algorithm, LNS2+RL, which combines the distinct yet complementary characteristics of LNS2 and MARL to effectively balance their individual limitations and get the best from both worlds. During early iterations, LNS2+RL relies on MARL for low-level replanning, which we show eliminates collisions much more than a PP algorithm. There, our MARL-based planner allows agents to reason about past and future information to gradually learn cooperative decision-making through a finely designed curriculum learning. At later stages of planning, LNS2+RL adaptively switches to PP algorithm to quickly resolve the remaining collisions, naturally trading off solution quality (number of collisions in the solution) and computational efficiency. Our comprehensive experiments on high-agent-density tasks across various team sizes, world sizes, and map structures consistently demonstrate the superior performance of LNS2+RL compared to many MAPF algorithms, including LNS2, LaCAM, EECBS, and SCRIMP. In maps with complex structures, the advantages of LNS2+RL are particularly pronounced, with LNS2+RL achieving a success rate of over 50% in nearly half of the tested tasks, while that of LaCAM, EECBS and SCRIMP falls to 0%.
arxiv情報
著者 | Yutong Wang,Tanishq Duhan,Jiaoyang Li,Guillaume Sartoretti |
発行日 | 2025-01-31 12:54:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google