要約
マルチローター UAV は、バッテリー容量が限られているため、航続距離と飛行時間が制限されます。
2D 移動プラットフォームへの自律着陸により、バッテリーを補充し、データをオフロードできるため、車両の実用性が向上します。
従来のアプローチは、車両と環境の正確かつ複雑で導出が困難なモデルに依存しています。
強化学習 (RL) は、トレーニング手順中にデータのみから適切な制御ポリシーを学習できるため、魅力的な代替手段となります。
ただし、現在の手法はトレーニングに数時間を要し、成功率が限られており、試行錯誤によって調整する必要があるハイパーパラメータに依存しています。
この作業では、これらすべての問題に対処します。
まず、着陸手順を、より単純だが類似した一連の学習タスクに分解します。
これは、縦方向と横方向の両方でマルチローターの動きを制御するために、1D モーション用にトレーニングされた同じ RL ベースのコントローラーの 2 つのインスタンスを適用することによって可能になります。
次に、i) 状態空間トポロジーに関する情報を導出する移動プラットフォームの運動学的モデリング、および ii) 転移学習を使用した逐次カリキュラムとしてのトレーニングの構築に基づいた強力な状態空間離散化手法を導入します。
第三に、移動プラットフォームの運動学モデルを活用して、マルチロータービークルの十分な操縦性を確保するトレーニングプロセス用の解釈可能なハイパーパラメータも導き出します。
トレーニングは、表形式の RL メソッド Double Q-Learning を使用して実行されます。
広範なシミュレーションを通じて、提示された方法が他のディープ RL アプローチと比較して必要なトレーニング時間が短縮されながら、着陸の成功率が大幅に向上することを示します。
最後に、アルゴリズムを実際のハードウェアに展開してデモンストレーションします。
すべての評価シナリオについて、エージェントのパフォーマンスに関する統計が提供されます。
要約(オリジナル)
Multi-rotor UAVs suffer from a restricted range and flight duration due to limited battery capacity. Autonomous landing on a 2D moving platform offers the possibility to replenish batteries and offload data, thus increasing the utility of the vehicle. Classical approaches rely on accurate, complex and difficult-to-derive models of the vehicle and the environment. Reinforcement learning (RL) provides an attractive alternative due to its ability to learn a suitable control policy exclusively from data during a training procedure. However, current methods require several hours to train, have limited success rates and depend on hyperparameters that need to be tuned by trial-and-error. We address all these issues in this work. First, we decompose the landing procedure into a sequence of simpler, but similar learning tasks. This is enabled by applying two instances of the same RL based controller trained for 1D motion for controlling the multi-rotor’s movement in both the longitudinal and the lateral directions. Second, we introduce a powerful state space discretization technique that is based on i) kinematic modeling of the moving platform to derive information about the state space topology and ii) structuring the training as a sequential curriculum using transfer learning. Third, we leverage the kinematics model of the moving platform to also derive interpretable hyperparameters for the training process that ensure sufficient maneuverability of the multi-rotor vehicle. The training is performed using the tabular RL method Double Q-Learning. Through extensive simulations we show that the presented method significantly increases the rate of successful landings, while requiring less training time compared to other deep RL approaches. Finally, we deploy and demonstrate our algorithm on real hardware. For all evaluation scenarios we provide statistics on the agent’s performance.
arxiv情報
著者 | Pascal Goldschmid,Aamir Ahmad |
発行日 | 2024-05-16 16:06:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google