An Energy-aware and Fault-tolerant Deep Reinforcement Learning based approach for Multi-agent Patrolling Problems

要約

自動運転車は、継続的なエリアパトロールの問題に適しています。
ただし、最適なパトロール戦略を見つけることは、さまざまな理由から困難な場合があります。
まず、パトロール環境は複雑であることが多く、風や景観などの未知の環境要因が含まれる場合があります。
第 2 に、自動運転車には障害が発生したり、バッテリー寿命の制限などのハードウェアの制約が発生したりする可能性があります。
重要なのは、広いエリアをパトロールするには、多くの場合、複数のエージェントが行動を共同で調整する必要があることです。
この研究では、これらの制限を考慮し、モデルフリーの深層マルチエージェント強化学習に基づくアプローチを提案します。
このアプローチでは、エージェントは、さまざまな未知のダイナミクスと要因が存在する環境をパトロールするように訓練されます。
継続的な集団パトロールをサポートするために自動的に充電することができます。
分散型の同種マルチエージェント アーキテクチャが提案されており、すべてのパトロール エージェントがローカルでの観察と共有された位置情報に基づいて同一のポリシーをローカルで実行します。
このアーキテクチャは、エージェントの障害を許容し、補助エージェントを追加して障害のあるエージェントを置き換えたり、全体的なパトロール パフォーマンスを向上させたりできるパトロール システムを提供します。
このソリューションは、全体的な巡回パフォーマンス、バッテリー充電戦略の効率、全体的な耐障害性、補助エージェントとの連携機能など、複数の観点からシミュレーション実験を通じて検証されます。

要約(オリジナル)

Autonomous vehicles are suited for continuous area patrolling problems. However, finding an optimal patrolling strategy can be challenging for many reasons. Firstly, patrolling environments are often complex and can include unknown environmental factors, such as wind or landscape. Secondly, autonomous vehicles can have failures or hardware constraints, such as limited battery life. Importantly, patrolling large areas often requires multiple agents that need to collectively coordinate their actions. In this work, we consider these limitations and propose an approach based on model-free, deep multi-agent reinforcement learning. In this approach, the agents are trained to patrol an environment with various unknown dynamics and factors. They can automatically recharge themselves to support continuous collective patrolling. A distributed homogeneous multi-agent architecture is proposed, where all patrolling agents execute identical policies locally based on their local observations and shared location information. This architecture provides a patrolling system that can tolerate agent failures and allow supplementary agents to be added to replace failed agents or to increase the overall patrol performance. The solution is validated through simulation experiments from multiple perspectives, including the overall patrol performance, the efficiency of battery recharging strategies, the overall fault tolerance, and the ability to cooperate with supplementary agents.

arxiv情報

著者 Chenhao Tong,Aaron Harwood,Maria A. Rodriguez,Richard O. Sinnott
発行日 2023-06-09 03:22:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO パーマリンク