Enhancing UAV Path Planning Efficiency Through Accelerated Learning


無人航空機 (UAV) は、監視、偵察、通信などのさまざまな分野でますます不可欠になっています。
この研究は、ストレージ要件を削減し、深層強化学習 (DRL) の収束を加速できる、UAV 無線通信リレーの経路計画のための学習アルゴリズムを開発することを目的としています。
システムがそのエリアの地形図を所有し、位置特定アルゴリズムまたは直接 GPS レポートを使用してユーザーの位置を推定できると仮定すると、これらのパラメーターを学習アルゴリズムに入力して、最適化された経路計画パフォーマンスを達成できます。
この要件により、UAV のメモリとストレージの要求が増加すると同時に、DRL アルゴリズムの収束時間も長くなります。
同様に、これらの地形マップとユーザー位置推定を使用して UAV ワイヤレス通信リレーの通信カバレッジ マップを定義するには、学習パス計画アルゴリズムのためのメモリとストレージの使用率が高くなります。
私たちのアプローチでは、主成分分析 (PCA)、サンプルの組み合わせ、優先エクスペリエンス リプレイ (PER)、平均二乗誤差 (MSE) と平均絶対誤差 (MAE) 損失の組み合わせに基づく次元削減手法を適用することで、パス プランニングのトレーニング時間を短縮します。
これにより、Twin Delayed Deep Deterministic Policy Gradient (TD3) アルゴリズムが強化されます。
提案されたソリューションは、従来の TD3 と比較して、基本的なトレーニングに必要な収束エピソードを約 4 倍削減します。


Unmanned Aerial Vehicles (UAVs) are increasingly essential in various fields such as surveillance, reconnaissance, and telecommunications. This study aims to develop a learning algorithm for the path planning of UAV wireless communication relays, which can reduce storage requirements and accelerate Deep Reinforcement Learning (DRL) convergence. Assuming the system possesses terrain maps of the area and can estimate user locations using localization algorithms or direct GPS reporting, it can input these parameters into the learning algorithms to achieve optimized path planning performance. However, higher resolution terrain maps are necessary to extract topological information such as terrain height, object distances, and signal blockages. This requirement increases memory and storage demands on UAVs while also lengthening convergence times in DRL algorithms. Similarly, defining the telecommunication coverage map in UAV wireless communication relays using these terrain maps and user position estimations demands higher memory and storage utilization for the learning path planning algorithms. Our approach reduces path planning training time by applying a dimensionality reduction technique based on Principal Component Analysis (PCA), sample combination, Prioritized Experience Replay (PER), and the combination of Mean Squared Error (MSE) and Mean Absolute Error (MAE) loss calculations in the coverage map estimates, thereby enhancing a Twin Delayed Deep Deterministic Policy Gradient (TD3) algorithm. The proposed solution reduces the convergence episodes needed for basic training by approximately four times compared to the traditional TD3.


著者 Joseanne Viana,Boris Galkin,Lester Ho,Holger Claussen
発行日 2025-01-17 12:05:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク