要約
マルチエージェント経路探索 (MAPF) は、多くの大規模ロボット システムにとって重要なコンポーネントであり、エージェントは指定された目標位置までの衝突のない経路を計画する必要があります。
最近、マルチエージェント強化学習が導入され、各エージェントの部分観察に基づいて分散単一エージェント ポリシーを集中的な方法で学習することで、MAPF の部分観察可能なバリアントを解決しました。
ただし、既存の学習ベースの方法は、この設定が非定常であるため、特に混雑した環境では、複雑なマルチエージェントの協力を実現するのに効果的ではありません。
この課題に取り組むために、我々は、ヒューリスティックベースの注意を伴うソフトアクター批評家(SACHA)と呼ばれるマルチエージェントアクター批評家手法を提案します。これは、エージェント間の協力を促進するために、アクターと批評家の両方に新しいヒューリスティックベースの注意メカニズムを採用します。
SACHA は、各エージェントのニューラル ネットワークを学習して、視野内の複数のエージェントからの最短経路ヒューリスティック ガイダンスに選択的に注意を払うことで、よりスケーラブルな協力学習を可能にします。
SACHA はまた、$Q$ 値を近似するために各エージェントを中心とした新しい批評家を導入することにより、既存のマルチエージェントの俳優と批評家の枠組みを拡張します。
完全に観察可能なクリティカルを使用する既存の手法と比較して、エージェント中心のマルチエージェント アクタークリティカル手法では、より公平なクレジット割り当てが行われ、エージェントの数や環境の種類が異なる MAPF インスタンスに対する学習されたポリシーの一般化性が向上します。
また、エージェント間の情報交換を可能にするために、エージェントのポリシー ネットワークに通信モジュールを埋め込む SACHA(C) も実装しています。
私たちは、さまざまな MAPF インスタンスで SACHA と SACHA(C) の両方を評価し、成功率とソリューションの品質に関して、いくつかの最先端の学習ベースの MAPF 手法に比べてかなりの改善が見られることを実証しました。
要約(オリジナル)
Multi-Agent Path Finding (MAPF) is a crucial component for many large-scale robotic systems, where agents must plan their collision-free paths to their given goal positions. Recently, multi-agent reinforcement learning has been introduced to solve the partially observable variant of MAPF by learning a decentralized single-agent policy in a centralized fashion based on each agent’s partial observation. However, existing learning-based methods are ineffective in achieving complex multi-agent cooperation, especially in congested environments, due to the non-stationarity of this setting. To tackle this challenge, we propose a multi-agent actor-critic method called Soft Actor-Critic with Heuristic-Based Attention (SACHA), which employs novel heuristic-based attention mechanisms for both the actors and critics to encourage cooperation among agents. SACHA learns a neural network for each agent to selectively pay attention to the shortest path heuristic guidance from multiple agents within its field of view, thereby allowing for more scalable learning of cooperation. SACHA also extends the existing multi-agent actor-critic framework by introducing a novel critic centered on each agent to approximate $Q$-values. Compared to existing methods that use a fully observable critic, our agent-centered multi-agent actor-critic method results in more impartial credit assignment and better generalizability of the learned policy to MAPF instances with varying numbers of agents and types of environments. We also implement SACHA(C), which embeds a communication module in the agent’s policy network to enable information exchange among agents. We evaluate both SACHA and SACHA(C) on a variety of MAPF instances and demonstrate decent improvements over several state-of-the-art learning-based MAPF methods with respect to success rate and solution quality.
arxiv情報
| 著者 | Qiushi Lin,Hang Ma |
| 発行日 | 2023-07-05 23:36:33+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google