Cooperative Reward Shaping for Multi-Agent Pathfinding

要約

マルチエージェント パスファインディング (MAPF) の主な目的は、すべてのエージェントに対して効率的で競合のないパスを計画することです。
従来のマルチエージェント パス プランニング アルゴリズムは、複数のエージェントに対して効率的な分散パス プランニングを実現するのに苦労しています。
対照的に、マルチエージェント強化学習 (MARL) は、この目的を達成するための効果的なアプローチとして実証されています。
MAPF 問題を MARL 問題としてモデル化することにより、エージェントは部分的な観察の下で分散戦略を通じて効率的な経路計画と衝突回避を達成できます。
ただし、MARL 戦略では、グローバル情報が欠如しているため、エージェント間の連携が欠如していることが多く、結果的に MAPF 効率の低下につながります。
この課題に対処するために、このレターでは、Independent Q-Learning (IQL) に基づいた独自の報酬形成手法を紹介します。
この方法の目的は、1 つのエージェントが隣接するエージェントに及ぼす影響を評価し、そのような相互作用を報酬関数に統合して、エージェント間の積極的な協力につながることです。
この報酬形成方法により、分散方式で動作しながらエージェント間の協力が容易になります。
提案されたアプローチは、規模やエージェント数が異なるさまざまなシナリオにわたる実験を通じて評価されています。
結果は、他の最先端 (SOTA) プランナーの結果と比較されます。
証拠は、この手紙で提案されたアプローチが多くの点で他のプランナーと同等であり、多数のエージェントが登場するシナリオでは他のプランナーよりも優れていることを示唆しています。

要約(オリジナル)

The primary objective of Multi-Agent Pathfinding (MAPF) is to plan efficient and conflict-free paths for all agents. Traditional multi-agent path planning algorithms struggle to achieve efficient distributed path planning for multiple agents. In contrast, Multi-Agent Reinforcement Learning (MARL) has been demonstrated as an effective approach to achieve this objective. By modeling the MAPF problem as a MARL problem, agents can achieve efficient path planning and collision avoidance through distributed strategies under partial observation. However, MARL strategies often lack cooperation among agents due to the absence of global information, which subsequently leads to reduced MAPF efficiency. To address this challenge, this letter introduces a unique reward shaping technique based on Independent Q-Learning (IQL). The aim of this method is to evaluate the influence of one agent on its neighbors and integrate such an interaction into the reward function, leading to active cooperation among agents. This reward shaping method facilitates cooperation among agents while operating in a distributed manner. The proposed approach has been evaluated through experiments across various scenarios with different scales and agent counts. The results are compared with those from other state-of-the-art (SOTA) planners. The evidence suggests that the approach proposed in this letter parallels other planners in numerous aspects, and outperforms them in scenarios featuring a large number of agents.

arxiv情報

著者 Zhenyu Song,Ronghao Zheng,Senlin Zhang,Meiqin Liu
発行日 2024-07-15 02:44:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク