要約
学習ベースの手法、特に強化学習 (RL) は、自律型マルチコプター航空機の制御における展開の合理化、パフォーマンスの向上、および汎用化の実現に大きな期待を抱いています。
Deep RL は、シミュレーションにおいて優れた忠実性と俊敏性で複雑なシステムを制御できますが、シミュレーションから現実への移行は、多くの場合、埋めるのが難しい現実のギャップをもたらします。
さらに、RL は一般に、法外に長いトレーニング時間に悩まされます。
この研究では、エンドツーエンドのクアローター制御のための信頼性の高い RL ベースのトレーニング パラダイムと組み合わせた新しい非対称アクター クリティカル ベースのアーキテクチャを提案します。
カリキュラム学習と高度に最適化されたシミュレーターがサンプルの複雑さをどのように強化し、トレーニング時間を短縮するかを示します。
低レベル/エンドツーエンドのマルチコプター制御に関連する課題を正確に議論するために、制御抽象化の既存のレベル、非線形性、ドメイン パラメーターを分類する分類法も導入します。
当社のフレームワークでは、民生用ラップトップでわずか 18 秒のトレーニングを行った後、直接 RPM 制御のためのシミュレーションから現実 (Sim2Real) への転送が可能になるだけでなく、リアルタイム保証の下でマルチローターを制御するためのマイクロコントローラーへの展開も可能になります。
最後に、実際の Crazyflie ナノ クワローターを使用した既存の最先端の制御ソリューションとのさまざまな実験比較を通じて実証されたように、当社のソリューションは軌道追跡において競争力のあるパフォーマンスを示します。
私たちは、ラップトップ GPU で 1 秒あたり約 5 か月の飛行をシミュレートできる非常に高速なマルチコプター ダイナミクス シミュレーターを含むコードをオープンソースにしています。
トレーニング時間が短縮され、安価な既製のクワッドローターに展開できるため、参入障壁が低くなり、これらのシステムの研究開発の民主化に役立ちます。
要約(オリジナル)
Learning-based methods, particularly Reinforcement Learning (RL), hold great promise for streamlining deployment, enhancing performance, and achieving generalization in the control of autonomous multirotor aerial vehicles. Deep RL has been able to control complex systems with impressive fidelity and agility in simulation but the simulation-to-reality transfer often brings a hard-to-bridge reality gap. Moreover, RL is commonly plagued by prohibitively long training times. In this work, we propose a novel asymmetric actor-critic-based architecture coupled with a highly reliable RL-based training paradigm for end-to-end quadrotor control. We show how curriculum learning and a highly optimized simulator enhance sample complexity and lead to fast training times. To precisely discuss the challenges related to low-level/end-to-end multirotor control, we also introduce a taxonomy that classifies the existing levels of control abstractions as well as non-linearities and domain parameters. Our framework enables Simulation-to-Reality (Sim2Real) transfer for direct RPM control after only 18 seconds of training on a consumer-grade laptop as well as its deployment on microcontrollers to control a multirotor under real-time guarantees. Finally, our solution exhibits competitive performance in trajectory tracking, as demonstrated through various experimental comparisons with existing state-of-the-art control solutions using a real Crazyflie nano quadrotor. We open source the code including a very fast multirotor dynamics simulator that can simulate about 5 months of flight per second on a laptop GPU. The fast training times and deployment to a cheap, off-the-shelf quadrotor lower the barriers to entry and help democratize the research and development of these systems.
arxiv情報
著者 | Jonas Eschmann,Dario Albani,Giuseppe Loianno |
発行日 | 2023-11-22 01:06:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google