Multi-Target Pursuit by a Decentralized Heterogeneous UAV Swarm using Deep Multi-Agent Reinforcement Learning

要約

インテリジェントなターゲットを含むマルチエージェントの追跡・回避タスクは、有名なほど困難な調整問題である。本論文では、複数の回避目標を追跡することを目的とした無人航空機(UAV)のそのような協調行動を学習する新しい方法を研究する。マルチエージェント強化学習(MARL)フレームワークの中で、我々は特にマルチエージェント深層決定性政策勾配(MADDPG)法の変形を提案する。我々のアプローチは、ランダムな障害物がある非定常かつ未知の環境における複数のターゲットの追跡・回避シナリオを扱う。さらに、可能性のあるターゲットを検出するという点で、集団的探索が果たす重要な役割を考慮し、我々は、以前に特定されたターゲットの利用(すなわち追跡)と釣り合う探索行動を強化するために、追跡者に異種の役割を持たせる。我々の提案する役割ベースのMADDPGアルゴリズムは、複数のターゲットを追跡できるだけでなく、提案するボロノイベースの報酬ポリシーによって、可能性のあるターゲットを探索することができるようになる。我々は、Crazyflieドローンからなる実世界のマルチロボットシステムを展開する前に、シミュレーション環境において我々のアプローチを実装、テスト、検証した。その結果、マルチエージェントによる追跡チームは、複雑な環境下で複数の高速で回避するターゲットに直面した場合でも、ターゲット追跡と探索の面で非常に効率的な協調制御方針を学習する能力を持つことが実証された。

要約(オリジナル)

Multi-agent pursuit-evasion tasks involving intelligent targets are notoriously challenging coordination problems. In this paper, we investigate new ways to learn such coordinated behaviors of unmanned aerial vehicles (UAVs) aimed at keeping track of multiple evasive targets. Within a Multi-Agent Reinforcement Learning (MARL) framework, we specifically propose a variant of the Multi-Agent Deep Deterministic Policy Gradient (MADDPG) method. Our approach addresses multi-target pursuit-evasion scenarios within non-stationary and unknown environments with random obstacles. In addition, given the critical role played by collective exploration in terms of detecting possible targets, we implement heterogeneous roles for the pursuers for enhanced exploratory actions balanced by exploitation (i.e. tracking) of previously identified targets. Our proposed role-based MADDPG algorithm is not only able to track multiple targets, but also is able to explore for possible targets by means of the proposed Voronoi-based rewarding policy. We implemented, tested and validated our approach in a simulation environment prior to deploying a real-world multi-robot system comprising of Crazyflie drones. Our results demonstrate that a multi-agent pursuit team has the ability to learn highly efficient coordinated control policies in terms of target tracking and exploration even when confronted with multiple fast evasive targets in complex environments.

arxiv情報

著者 Maryam Kouzeghar,Youngbin Song,Malika Meghjani,Roland Bouffanais
発行日 2023-03-03 09:17:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク