要約
複雑で未知の環境における効率的な自律ナビゲーションと障害物回避のための UAV の機能は、農業灌漑、災害救援、物流の用途にとって重要です。
この論文では、部分的に観測可能な環境条件下での高速自律 UAV ナビゲーションの課題に対処するために設計されたエンドツーエンドのポリシーである DPRL (分散特権強化学習) ナビゲーション アルゴリズムを提案します。
私たちのアプローチは、深層強化学習と特権学習を組み合わせて、部分的な可観測性によって引き起こされる観測データの破損の影響を克服します。
非対称の Actor-Critic アーキテクチャを活用して、トレーニング中にエージェントに特権情報を提供し、モデルの知覚能力を強化します。
さらに、エクスペリエンスの収集を加速するための、多様な環境にわたるマルチエージェント探索戦略を提示します。これにより、モデルの収束が促進されます。
私たちはさまざまなシナリオにわたって広範なシミュレーションを実施し、DPRL アルゴリズムを最先端のナビゲーション アルゴリズムと比較してベンチマークしました。
結果は、飛行効率、堅牢性、全体的な成功率の点で、当社のアルゴリズムの優れたパフォーマンスを一貫して示しています。
要約(オリジナル)
The capability of UAVs for efficient autonomous navigation and obstacle avoidance in complex and unknown environments is critical for applications in agricultural irrigation, disaster relief and logistics. In this paper, we propose the DPRL (Distributed Privileged Reinforcement Learning) navigation algorithm, an end-to-end policy designed to address the challenge of high-speed autonomous UAV navigation under partially observable environmental conditions. Our approach combines deep reinforcement learning with privileged learning to overcome the impact of observation data corruption caused by partial observability. We leverage an asymmetric Actor-Critic architecture to provide the agent with privileged information during training, which enhances the model’s perceptual capabilities. Additionally, we present a multi-agent exploration strategy across diverse environments to accelerate experience collection, which in turn expedites model convergence. We conducted extensive simulations across various scenarios, benchmarking our DPRL algorithm against the state-of-the-art navigation algorithms. The results consistently demonstrate the superior performance of our algorithm in terms of flight efficiency, robustness and overall success rate.
arxiv情報
著者 | Junqiao Wang,Zhongliang Yu,Dong Zhou,Jiaqi Shi,Runran Deng |
発行日 | 2024-12-09 09:05:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google