Deep Reinforcement Learning-based Quadcopter Controller: A Practical Approach and Experiments

要約

クアッドコプターは、その機動性とさまざまな状況で動作する能力のおかげで、数十年にわたって研究されてきました。
ただし、クアッドコプターは動的非線形性、アクチュエータの飽和、センサーノイズに悩まされており、正確な動的モデルを取得して満足のいく制御性能を達成することが困難で時間がかかります。
幸いなことに、深層強化学習が登場し、自律型マルチコプター航空機のシステム モデリングと制御において大きな可能性を示しており、最近の展開、性能強化、および一般化の進歩によります。
この論文では、現実世界の実装に安全で、データ効率が高く、人間によるゲイン調整が不要な、クアッドコプター用のエンドツーエンドの深層強化学習ベースのコントローラーを提案します。
まず、新しいアクター クリティカル ベースのアーキテクチャが、ロボットの状態をモーター出力に直接マッピングするように設計されています。
次に、コントローラー ポリシーのトレーニングを容易にするために、クアッドコプターのダイナミクス ベースのシミュレーターが考案されました。
最後に、トレーニングされたポリシーは、追加の微調整プロセスなしで、実際の Crazyflie ナノ クワッドローター プラットフォームに展開されます。
実験結果は、クアッドコプターが特定の複雑な軌道を追跡するときに満足のいくパフォーマンスを示すことを示しており、これは提案された方法の有効性と実現可能性を実証し、シミュレーションと現実のギャップを埋める能力を示しています。

要約(オリジナル)

Quadcopters have been studied for decades thanks to their maneuverability and capability of operating in a variety of circumstances. However, quadcopters suffer from dynamical nonlinearity, actuator saturation, as well as sensor noise that make it challenging and time consuming to obtain accurate dynamic models and achieve satisfactory control performance. Fortunately, deep reinforcement learning came and has shown significant potential in system modelling and control of autonomous multirotor aerial vehicles, with recent advancements in deployment, performance enhancement, and generalization. In this paper, an end-to-end deep reinforcement learning-based controller for quadcopters is proposed that is secure for real-world implementation, data-efficient, and free of human gain adjustments. First, a novel actor-critic-based architecture is designed to map the robot states directly to the motor outputs. Then, a quadcopter dynamics-based simulator was devised to facilitate the training of the controller policy. Finally, the trained policy is deployed on a real Crazyflie nano quadrotor platform, without any additional fine-tuning process. Experimental results show that the quadcopter exhibits satisfactory performance as it tracks a given complicated trajectory, which demonstrates the effectiveness and feasibility of the proposed method and signifies its capability in filling the simulation-to-reality gap.

arxiv情報

著者 Truong-Dong Do,Nguyen Xuan Mung,Sung Kyung Hong
発行日 2024-06-18 17:13:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク