要約
カバレッジ パス プランニングは、特定の限られたエリアの空きスペース全体をカバーする最短パスを見つける問題で、その用途はロボットによる芝刈りや掃除機から、地雷除去や捜索救助作業まで多岐にわたります。
オフライン手法は、既知の環境に対して証明可能で完全な、場合によっては最適なパスを見つけることができますが、その価値は、環境が事前に分かっていないオンライン シナリオ、特に非静的障害物が存在する場合には限定されます。
未知の環境を処理できるオンライン カバレッジ パス計画問題に対して、連続状態およびアクション空間におけるエンドツーエンドの強化学習ベースのアプローチを提案します。
地球規模の地図とローカルの感覚入力の両方から観測空間を構築することで、エージェントが長期的な経路を計画し、同時に短期的な障害物の検出に対応できるようにします。
大規模な環境を考慮して、マルチスケール マップ入力表現を使用することを提案します。
さらに、学習されたパス内の覆われていないスペースの薄いストリップを排除するための新しい合計変動報酬項を提案します。
私たちのアプローチの有効性を検証するために、距離センサーを使用したシミュレーションで広範な実験を実行し、最近の強化学習ベースのアプローチのパフォーマンスを上回りました。
要約(オリジナル)
Coverage path planning is the problem of finding the shortest path that covers the entire free space of a given confined area, with applications ranging from robotic lawn mowing and vacuum cleaning, to demining and search-and-rescue tasks. While offline methods can find provably complete, and in some cases optimal, paths for known environments, their value is limited in online scenarios where the environment is not known beforehand, especially in the presence of non-static obstacles. We propose an end-to-end reinforcement learning-based approach in continuous state and action space, for the online coverage path planning problem that can handle unknown environments. We construct the observation space from both global maps and local sensory inputs, allowing the agent to plan a long-term path, and simultaneously act on short-term obstacle detections. To account for large-scale environments, we propose to use a multi-scale map input representation. Furthermore, we propose a novel total variation reward term for eliminating thin strips of uncovered space in the learned path. To validate the effectiveness of our approach, we perform extensive experiments in simulation with a distance sensor, surpassing the performance of a recent reinforcement learning-based approach.
arxiv情報
著者 | Arvi Jonnarth,Jie Zhao,Michael Felsberg |
発行日 | 2023-06-29 14:32:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google