要約
深層強化学習は、自律的な無人航空機 (UAV) をトレーニングするための一般的な方法になりつつあります。
私たちの研究では、深層強化学習 (DRL) ベースのウェイポイント ナビゲーションと UAV の障害物回避のパフォーマンスに対する測定の不確実性の影響を分析しています。
測定の不確実性は、ローカリゼーションと障害物の検出に使用されるセンサーのノイズに起因します。
測定の不確実性/ノイズは、未知のゼロ以外の平均と分散を持つガウス確率分布に従うと見なされます。
連続的な状態空間とアクション空間を持つ環境で、Proximal Policy Optimization (PPO) アルゴリズムを使用してトレーニングされた DRL エージェントのパフォーマンスを評価します。
環境は、現実的なセンサー測定の影響を捉えるために、さまざまなレベルのノイズが存在する中で、シミュレーション エピソードごとにさまざまな数の障害物でランダム化されます。
ローパス フィルターやカルマン フィルターなどのノイズ除去手法は、偏りのないノイズが存在する場合のパフォーマンスを向上させます。
さらに、評価中に人為的にノイズを測定に注入すると、特定のシナリオで実際にパフォーマンスが向上することを示しています。
さまざまな UAV ナビゲーション シナリオでの DRL エージェントの広範なトレーニングとテストは、PyBullet 物理シミュレーターで実行されます。
私たちの方法の実用的な有効性を評価するために、シミュレーションでトレーニングされたポリシーを、それ以上変更せずに実際の UAV に移植し、実際の環境で結果を検証します。
要約(オリジナル)
Deep Reinforcement Learning is quickly becoming a popular method for training autonomous Unmanned Aerial Vehicles (UAVs). Our work analyzes the effects of measurement uncertainty on the performance of Deep Reinforcement Learning (DRL) based waypoint navigation and obstacle avoidance for UAVs. Measurement uncertainty originates from noise in the sensors used for localization and detecting obstacles. Measurement uncertainty/noise is considered to follow a Gaussian probability distribution with unknown non-zero mean and variance. We evaluate the performance of a DRL agent trained using the Proximal Policy Optimization (PPO) algorithm in an environment with continuous state and action spaces. The environment is randomized with different numbers of obstacles for each simulation episode in the presence of varying degrees of noise, to capture the effects of realistic sensor measurements. Denoising techniques like the low pass filter and Kalman filter improve performance in the presence of unbiased noise. Moreover, we show that artificially injecting noise into the measurements during evaluation actually improves performance in certain scenarios. Extensive training and testing of the DRL agent under various UAV navigation scenarios are performed in the PyBullet physics simulator. To evaluate the practical validity of our method, we port the policy trained in simulation onto a real UAV without any further modifications and verify the results in a real-world environment.
arxiv情報
著者 | Bhaskar Joshi,Dhruv Kapur,Harikumar Kandath |
発行日 | 2023-03-13 16:15:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google