Learning Coverage Paths in Unknown Environments with Reinforcement Learning

要約

カバレッジ パス プランニング (CPP) は、限られたエリアの空きスペース全体をカバーするパスを見つける問題であり、その用途はロボットによる芝刈りや掃除機から、地雷除去や捜索救助作業まで多岐にわたります。
オフラインの方法では、既知の環​​境に対して確実に完全な、場合によっては最適なパスを見つけることができますが、環境が事前に不明なオンライン シナリオでは、その価値は限られています。
この場合、環境をマッピングするときにオンラインでパスを計画する必要があります。
私たちは、強化学習がこの困難な問題にどの程度適しているかを調査し、アクション空間、入力特徴表現、ニューラル ネットワーク アーキテクチャ、報酬関数など、カバレッジ パスを効率的に学習するために必要な関連コンポーネントを分析します。
既存の古典的な方法と比較して、このアプローチでは柔軟なパス空間が可能になり、エージェントが特定の環境ダイナミクスに適応できるようになります。
短期的な障害物検出に作用するための局所的な感覚入力に加えて、フロンティアに基づいた複数のスケールで自己中心的なマップを使用することを提案します。
これにより、エージェントは、実行可能な計算とメモリの複雑さを備えた大規模環境で長期的なパスを計画できます。
さらに、覆われていない自由空間の小さな穴を残さないようにエージェントを誘導するための新しい総変動報酬項を提案します。
私たちのアプローチの有効性を検証するために、CPP 問題のさまざまなバリエーションについて 2D 測距センサーを使用したシミュレーションで広範な実験を実行し、これまでの RL ベースのアプローチと高度に特殊化された手法の両方のパフォーマンスを上回りました。

要約(オリジナル)

Coverage path planning (CPP) is the problem of finding a path that covers the entire free space of a confined area, with applications ranging from robotic lawn mowing and vacuum cleaning, to demining and search-and-rescue tasks. While offline methods can find provably complete, and in some cases optimal, paths for known environments, their value is limited in online scenarios where the environment is not known beforehand. In this case, the path needs to be planned online while mapping the environment. We investigate how suitable reinforcement learning is for this challenging problem, and analyze the involved components required to efficiently learn coverage paths, such as action space, input feature representation, neural network architecture, and reward function. Compared to existing classical methods, this approach allows for a flexible path space, and enables the agent to adapt to specific environment dynamics. In addition to local sensory inputs for acting on short-term obstacle detections, we propose to use egocentric maps in multiple scales based on frontiers. This allows the agent to plan a long-term path in large-scale environments with feasible computational and memory complexity. Furthermore, we propose a novel total variation reward term for guiding the agent not to leave small holes of non-covered free space. To validate the effectiveness of our approach, we perform extensive experiments in simulation with a 2D ranging sensor on different variations of the CPP problem, surpassing the performance of both previous RL-based approaches and highly specialized methods.

arxiv情報

著者 Arvi Jonnarth,Jie Zhao,Michael Felsberg
発行日 2023-10-13 09:37:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク