Navigation in a simplified Urban Flow through Deep Reinforcement Learning

要約

都市環境における無人航空機 (UAV) の数が増加しているため、エネルギー効率と騒音低減の両方の観点から、環境への影響を最小限に抑える戦略が必要です。
これらの懸念を軽減するには、予測モデルを開発し、深層強化学習 (DRL) などによる飛行計画を最適化するための新しい戦略が必要です。
私たちの目標は、エネルギー消費と騒音の両方を削減するために、建物や他の UAV の存在を考慮して軌道を最適化し、都市環境における UAV の自律航行を可能にする DRL アルゴリズムを開発することです。
これは、UAV が航行する環境を表す流体流動シミュレーションと、都市環境と対話するエージェントとして UAV をトレーニングすることによって実現されます。
この研究では、3 次元の高忠実度数値シミュレーションから抽出された、理想的には建物を表す、障害物を含む 2 次元の流れ場で表されるドメイン ドメインを検討します。
PPO + LSTM セルを使用した提示された方法論は、ナビゲーションにおける単純だが基本的な問題、つまり乱流の中を航行し、開始点から目標位置まで移動する船舶を扱うゼルメロ問題を再現することによって検証されました。
軌跡。
現在の方法は、単純な PPO と TD3 アルゴリズムの両方に関して大幅な改善を示しており、PPO+LSTM トレーニング済みポリシーの成功率 (SR) は 98.7%、クラッシュ率 (CR) は 0.1% で、両方を上回っています。
PPO (SR = 75.6%、CR = 18.6%) および TD3 (SR = 77.4%、CR = 14.5%)。
これは、リアルタイム信号を使用して 3 次元の流れ場で UAV を誘導し、飛行時間の点で効率的なナビゲーションを実現し、車両への損傷を回避する DRL 戦略に向けた最初のステップです。

要約(オリジナル)

The increasing number of unmanned aerial vehicles (UAVs) in urban environments requires a strategy to minimize their environmental impact, both in terms of energy efficiency and noise reduction. In order to reduce these concerns, novel strategies for developing prediction models and optimization of flight planning, for instance through deep reinforcement learning (DRL), are needed. Our goal is to develop DRL algorithms capable of enabling the autonomous navigation of UAVs in urban environments, taking into account the presence of buildings and other UAVs, optimizing the trajectories in order to reduce both energetic consumption and noise. This is achieved using fluid-flow simulations which represent the environment in which UAVs navigate and training the UAV as an agent interacting with an urban environment. In this work, we consider a domain domain represented by a two-dimensional flow field with obstacles, ideally representing buildings, extracted from a three-dimensional high-fidelity numerical simulation. The presented methodology, using PPO+LSTM cells, was validated by reproducing a simple but fundamental problem in navigation, namely the Zermelo’s problem, which deals with a vessel navigating in a turbulent flow, travelling from a starting point to a target location, optimizing the trajectory. The current method shows a significant improvement with respect to both a simple PPO and a TD3 algorithm, with a success rate (SR) of the PPO+LSTM trained policy of 98.7%, and a crash rate (CR) of 0.1%, outperforming both PPO (SR = 75.6%, CR=18.6%) and TD3 (SR=77.4% and CR=14.5%). This is the first step towards DRL strategies which will guide UAVs in a three-dimensional flow field using real-time signals, making the navigation efficient in terms of flight time and avoiding damages to the vehicle.

arxiv情報

著者 Federica Tonti,Jean Rabault,Ricardo Vinuesa
発行日 2024-09-26 15:05:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク