Ensembling Prioritized Hybrid Policies for Multi-agent Pathfinding

要約

マルチエージェント強化学習 (MARL) ベースのマルチエージェント パス探索 (MAPF) は、その効率性とスケーラビリティにより最近注目を集めています。
いくつかの MARL-MAPF メソッドは、エージェントが認識できる情報を充実させるために通信を使用することを選択します。
しかし、既存の作品は、障害物の密度が高く、エージェントの数が多い構造化された環境では依然として苦戦しています。
通信ベースの MARL-MAPF ソルバーのパフォーマンスをさらに向上させるために、新しい手法である Ensembling Prioritized Hybrid Policies (EPH) を提案します。
まず、マルチエージェント環境内でエージェントの調整を改善するためにより豊富な情報を収集し、Q 学習ベースのアルゴリズムでモデルをトレーニングするための選択的通信ブロックを提案します。
さらに、実行フェーズでのパフォーマンスの強化を目的とした 3 つの高度な推論戦略を紹介します。
まず、紛争のない地域をナビゲートするためのニューラル ポリシーと単一エージェントの専門家によるガイダンスをハイブリッド化します。
第二に、競合およびデッドロック状況を優先的に解決するための Q 値ベースの方法を提案します。
最後に、考えられる複数のソリューションから最適なものを効率的に収集できる堅牢なアンサンブル手法を紹介します。
私たちは複雑なマルチエージェント環境で EPH を経験的に評価し、MAPF の最先端のニューラル手法に対して競合パフォーマンスを実証します。
コードは https://github.com/ai4co/eph-mapf でオープンソース化されています。

要約(オリジナル)

Multi-Agent Reinforcement Learning (MARL) based Multi-Agent Path Finding (MAPF) has recently gained attention due to its efficiency and scalability. Several MARL-MAPF methods choose to use communication to enrich the information one agent can perceive. However, existing works still struggle in structured environments with high obstacle density and a high number of agents. To further improve the performance of the communication-based MARL-MAPF solvers, we propose a new method, Ensembling Prioritized Hybrid Policies (EPH). We first propose a selective communication block to gather richer information for better agent coordination within multi-agent environments and train the model with a Q learning-based algorithm. We further introduce three advanced inference strategies aimed at bolstering performance during the execution phase. First, we hybridize the neural policy with single-agent expert guidance for navigating conflict-free zones. Secondly, we propose Q value-based methods for prioritized resolution of conflicts as well as deadlock situations. Finally, we introduce a robust ensemble method that can efficiently collect the best out of multiple possible solutions. We empirically evaluate EPH in complex multi-agent environments and demonstrate competitive performance against state-of-the-art neural methods for MAPF. We open-source our code at https://github.com/ai4co/eph-mapf.

arxiv情報

著者 Huijie Tang,Federico Berto,Jinkyoo Park
発行日 2024-07-10 08:36:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO パーマリンク