Multi-UAV Adaptive Path Planning Using Deep Reinforcement Learning

要約

多くのリモート センシング アプリケーションでは、効率的な航空データ収集が重要です。
大規模な監視シナリオでは、無人航空機 (UAV) のチームを展開することで、個々の障害に対する空間カバレッジと堅牢性が向上します。
ただし、主要な課題は、共同ミッションの目標を効率的に達成するための UAV の協調経路計画です。
UAV チームを使用した適応型地形監視シナリオのための深層強化学習に基づく、新しいマルチエージェントの有益な経路計画アプローチを提案します。
3D ワークスペースでの経路計画を効果的に学習するために、新しいネットワーク フィーチャ表現を導入します。
反事実ベースラインを活用することにより、私たちのアプローチは、協調行動を学習するためのクレジット割り当てに明示的に対処します。
私たちの実験的評価では、計画のパフォーマンスが改善されていることが示されています。つまり、非反実バリアントに関して、関心のある領域をより迅速にマップします。
合成データと現実世界のデータに関する結果は、さまざまなチームの規模やコミュニケーションの制約に適用できる一方で、最先端の非学習ベースの方法と比較して、私たちのアプローチが優れたパフォーマンスを発揮することを示しています。

要約(オリジナル)

Efficient aerial data collection is important in many remote sensing applications. In large-scale monitoring scenarios, deploying a team of unmanned aerial vehicles (UAVs) offers improved spatial coverage and robustness against individual failures. However, a key challenge is cooperative path planning for the UAVs to efficiently achieve a joint mission goal. We propose a novel multi-agent informative path planning approach based on deep reinforcement learning for adaptive terrain monitoring scenarios using UAV teams. We introduce new network feature representations to effectively learn path planning in a 3D workspace. By leveraging a counterfactual baseline, our approach explicitly addresses credit assignment to learn cooperative behaviour. Our experimental evaluation shows improved planning performance, i.e. maps regions of interest more quickly, with respect to non-counterfactual variants. Results on synthetic and real-world data show that our approach has superior performance compared to state-of-the-art non-learning-based methods, while being transferable to varying team sizes and communication constraints.

arxiv情報

著者 Jonas Westheider,Julius Rückin,Marija Popović
発行日 2023-03-02 10:54:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク