SCRIMP: Scalable Communication for Reinforcement- and Imitation-Learning-Based Multi-Agent Pathfinding

要約

スケーラビリティを優先してパフォーマンスの保証を犠牲にし、マルチ エージェント パス検索 (MAPF) コミュニティは最近、マルチ エージェント強化学習 (MARL) を採用し始めました。MARL では、エージェントが個別の衝突のない (ただし最適ではないことが多い) パスを共同で生成する方法を学習します。

スケーラビリティは通常、エージェントの周囲にローカルな視野 (FOV) を想定することで実現され、任意のワールド サイズに合わせて拡張できます。
ただし、この仮定ではエージェントが利用できる情報量が大幅に制限されるため、エージェントがより密度の高い MAPF タスクで必要な種類の共同操作を実行することが困難になります。
この論文では、修正されたトランスフォーマに基づく拡張性の高いグローバル/ローカル通信メカニズムに依存することにより、エージェントが非常に小さな (3×3 までの) FOV からも個々のポリシーを学習する SCRIMP を提案します。
さらに、対称的な状況でのパフォーマンスをさらに向上させるために状態値ベースのタイブレーク戦略をエージェントに装備し、長期的なクレジット割り当ての問題を軽減しながら探索を促進するための固有の報酬を導入します。
一連の実験に対する経験的評価によると、SCRIMP は、より大きな FOV を備えた他の最先端の学習ベースの MAPF プランナーと比較して、スケーラビリティが向上し、より高いパフォーマンスを達成でき、多くの場合、従来の集中型プランナーと同等のパフォーマンスさえ得られることが示されています。
アブレーション研究により、私たちが提案した技術の有効性がさらに検証されています。
最後に、訓練されたモデルがガゼボでの高忠実度シミュレーションを通じてオンライン MAPF 用の実際のロボットに直接実装できることを示します。

要約(オリジナル)

Trading off performance guarantees in favor of scalability, the Multi-Agent Path Finding (MAPF) community has recently started to embrace Multi-Agent Reinforcement Learning (MARL), where agents learn to collaboratively generate individual, collision-free (but often suboptimal) paths. Scalability is usually achieved by assuming a local field of view (FOV) around the agents, helping scale to arbitrary world sizes. However, this assumption significantly limits the amount of information available to the agents, making it difficult for them to enact the type of joint maneuvers needed in denser MAPF tasks. In this paper, we propose SCRIMP, where agents learn individual policies from even very small (down to 3×3) FOVs, by relying on a highly-scalable global/local communication mechanism based on a modified transformer. We further equip agents with a state-value-based tie-breaking strategy to further improve performance in symmetric situations, and introduce intrinsic rewards to encourage exploration while mitigating the long-term credit assignment problem. Empirical evaluations on a set of experiments indicate that SCRIMP can achieve higher performance with improved scalability compared to other state-of-the-art learning-based MAPF planners with larger FOVs, and even yields similar performance as a classical centralized planner in many cases. Ablation studies further validate the effectiveness of our proposed techniques. Finally, we show that our trained model can be directly implemented on real robots for online MAPF through high-fidelity simulations in gazebo.

arxiv情報

著者 Yutong Wang,Bairan Xiang,Shinan Huang,Guillaume Sartoretti
発行日 2023-08-31 09:43:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク