Multi-Agent Deep Reinforcement Learning For Persistent Monitoring With Sensing, Communication, and Localization Constraints

要約

非 GPS 環境において、限られたセンシング、通信、位置特定の制約がある領域を永続的に監視するためのマルチロボットの動作ポリシーを決定することは、困難な問題です。
位置特定の制約を考慮するために、この論文では、正確な位置特定能力を持つアンカー エージェントと低い位置特定精度を持つ補助エージェントの 2 種類のエージェントで構成される異種ロボット システムを考慮します。
補助エージェント自体をローカライズするには、補助エージェントが直接または間接的に {アンカー} の通信範囲内に存在する必要があります。
ロボットチームの目的は、継続的な監視を通じて環境の不確実性を最小限に抑えることです。
我々は、Graph Localized Proximal Policy Optimization (GALOPP) と呼ばれるグラフ畳み込みを備えたマルチエージェント深層強化学習 (MARL) ベースのアーキテクチャを提案します。これには、永続的な監視とともに、限られたセンサーの視野、通信、およびエージェントの位置特定の制約が組み込まれています。
各エージェントの動作ポリシーを決定するための目標。
アンカーおよび補助エージェントの数が異なる障害物があるオープンマップ上で GALOPP のパフォーマンスを評価します。
さらに、(i) 通信範囲、障害物密度、および感知範囲がパフォーマンスに及ぼす影響を研究し、(ii) GALOPP のパフォーマンスを非 RL ベースライン、つまり貪欲検索、ランダム検索、および通信制約のあるランダム検索と比較します。

一般化機能については、2 ルームと 4 ルームという 2 つの異なる環境でも GALOPP を評価しました。
結果は、GALOPP が政策を学習し、地域をよく監視していることを示しています。
概念実証として、GALOPP のパフォーマンスを実証するためにハードウェア実験を実行します。

要約(オリジナル)

Determining multi-robot motion policies for persistently monitoring a region with limited sensing, communication, and localization constraints in non-GPS environments is a challenging problem. To take the localization constraints into account, in this paper, we consider a heterogeneous robotic system consisting of two types of agents: anchor agents with accurate localization capability and auxiliary agents with low localization accuracy. To localize itself, the auxiliary agents must be within the communication range of an {anchor}, directly or indirectly. The robotic team’s objective is to minimize environmental uncertainty through persistent monitoring. We propose a multi-agent deep reinforcement learning (MARL) based architecture with graph convolution called Graph Localized Proximal Policy Optimization (GALOPP), which incorporates the limited sensor field-of-view, communication, and localization constraints of the agents along with persistent monitoring objectives to determine motion policies for each agent. We evaluate the performance of GALOPP on open maps with obstacles having a different number of anchor and auxiliary agents. We further study (i) the effect of communication range, obstacle density, and sensing range on the performance and (ii) compare the performance of GALOPP with non-RL baselines, namely, greedy search, random search, and random search with communication constraint. For its generalization capability, we also evaluated GALOPP in two different environments — 2-room and 4-room. The results show that GALOPP learns the policies and monitors the area well. As a proof-of-concept, we perform hardware experiments to demonstrate the performance of GALOPP.

arxiv情報

著者 Manav Mishra,Prithvi Poddar,Rajat Agarwal,Jingxi Chen,Pratap Tokekar,P. B. Sujit
発行日 2023-05-14 17:28:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク