Deep Reinforcement Learning for Sim-to-Real Policy Transfer of VTOL-UAVs Offshore Docking Operations

要約

この論文では、垂直離着陸無人航空機 (VTOL-UAV) のシミュレーションから現実へのポリシー移行のための新しい強化学習 (RL) アプローチを提案します。
提案されたアプローチは、海上業務においてオフショアドッキングステーションに着陸する VTOL-UAV 向けに設計されています。
海上での運用における VTOL-UAV は、主にバッテリー容量による制約により、運用範囲に制限が生じます。
充電プラットフォームへの自律着陸のコンセプトは、バッテリーの充電とデータ転送を容易にすることで、これらの制限を軽減する興味深い見通しを示しています。
ただし、現在の深層強化学習 (DRL) 手法には、トレーニング時間が長く、成功率が低いなどの欠点があります。
この論文では、着陸手順を、進入フェーズと着陸フェーズという観点から、より管理しやすいが類似した一連のタスクに分解することで、これらの懸念に包括的に取り組みます。
提案されたアーキテクチャは、VTOL-UAV がオフショア ドッキング ステーションに接近するアプローチ フェーズにモデルベースの制御スキームを利用します。
着陸フェーズでは、DRL エージェントはオフラインでトレーニングを受け、オフショア ステーションにドッキングするための最適なポリシーを学習しました。
Joint North Sea Wave Project (JONSWAP) スペクトル モデルを使用して各エピソードの波モデルを作成し、sim2real 転送のポリシーの一般化を強化しました。
DRL アルゴリズムのセットは、値ベースのエージェントと、ディープ \textit{Q} ネットワーク (DQN) や近接ポリシー最適化 (PPO) などのポリシーベースのエージェントを含む数値シミュレーションを通じてテストされています。
数値実験は、PPO エージェントが不確実な環境に着陸するための複雑かつ効率的なポリシーを学習できることを示しており、これによりシミュレーションから現実への転送が成功する可能性が高まります。

要約(オリジナル)

This paper proposes a novel Reinforcement Learning (RL) approach for sim-to-real policy transfer of Vertical Take-Off and Landing Unmanned Aerial Vehicle (VTOL-UAV). The proposed approach is designed for VTOL-UAV landing on offshore docking stations in maritime operations. VTOL-UAVs in maritime operations encounter limitations in their operational range, primarily stemming from constraints imposed by their battery capacity. The concept of autonomous landing on a charging platform presents an intriguing prospect for mitigating these limitations by facilitating battery charging and data transfer. However, current Deep Reinforcement Learning (DRL) methods exhibit drawbacks, including lengthy training times, and modest success rates. In this paper, we tackle these concerns comprehensively by decomposing the landing procedure into a sequence of more manageable but analogous tasks in terms of an approach phase and a landing phase. The proposed architecture utilizes a model-based control scheme for the approach phase, where the VTOL-UAV is approaching the offshore docking station. In the Landing phase, DRL agents were trained offline to learn the optimal policy to dock on the offshore station. The Joint North Sea Wave Project (JONSWAP) spectrum model has been employed to create a wave model for each episode, enhancing policy generalization for sim2real transfer. A set of DRL algorithms have been tested through numerical simulations including value-based agents and policy-based agents such as Deep \textit{Q} Networks (DQN) and Proximal Policy Optimization (PPO) respectively. The numerical experiments show that the PPO agent can learn complicated and efficient policies to land in uncertain environments, which in turn enhances the likelihood of successful sim-to-real transfer.

arxiv情報

著者 Ali M. Ali,Aryaman Gupta,Hashim A. Hashim
発行日 2024-07-31 14:52:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク