Learning to Recharge: UAV Coverage Path Planning through Deep Reinforcement Learning

要約

カバレッジ パス プランニング (CPP) はロボット工学における重要な問題であり、目標は対象エリア内のすべてのポイントをカバーする効率的なパスを見つけることです。
この取り組みは、バッテリーが限られている無人航空機 (UAV) の充電に関する電力制約のある CPP 問題に対処します。
この問題では、リチャージの行程を全体的なカバレッジ戦略に統合することから顕著な課題が生じ、戦略的かつ長期的な意思決定を行うという複雑なタスクが浮き彫りになります。
我々は、マップベースの観測による新しい近接ポリシー最適化(PPO)ベースの深層強化学習(DRL)アプローチを提案し、アクションマスキングと割引係数スケジューリングを利用して、ミッション期間全体にわたるカバレッジ軌道を最適化します。
さらに、再充電機能によって引き起こされる緊急状態のループを処理するために、エージェントに位置履歴を提供します。
私たちのアプローチは、ベースライン ヒューリスティックを上回っており、さまざまなターゲット ゾーンとマップに一般化しますが、目に見えないマップへの一般化は限定されています。
私たちは、長期的な問題に対する DRL アルゴリズム設計に関する貴重な洞察を提供し、CPP 問題に対して公的に利用可能なソフトウェア フレームワークを提供します。

要約(オリジナル)

Coverage path planning (CPP) is a critical problem in robotics, where the goal is to find an efficient path that covers every point in an area of interest. This work addresses the power-constrained CPP problem with recharge for battery-limited unmanned aerial vehicles (UAVs). In this problem, a notable challenge emerges from integrating recharge journeys into the overall coverage strategy, highlighting the intricate task of making strategic, long-term decisions. We propose a novel proximal policy optimization (PPO)-based deep reinforcement learning (DRL) approach with map-based observations, utilizing action masking and discount factor scheduling to optimize coverage trajectories over the entire mission horizon. We further provide the agent with a position history to handle emergent state loops caused by the recharge capability. Our approach outperforms a baseline heuristic, generalizes to different target zones and maps, with limited generalization to unseen maps. We offer valuable insights into DRL algorithm design for long-horizon problems and provide a publicly available software framework for the CPP problem.

arxiv情報

著者 Mirco Theile,Harald Bayerlein,Marco Caccamo,Alberto L. Sangiovanni-Vincentelli
発行日 2023-09-06 16:55:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク