End-to-end Neural Network Based Quadcopter control

要約

アグレッシブな高速クアッドコプター飛行に最適なコントローラーを開発することは、ロボット工学において大きな課題となります。
この分野の最近の傾向には、教師あり学習または強化学習を通じて訓練されたニューラル ネットワーク コントローラーの利用が含まれています。
ただし、シミュレーションからリアルへの転送では現実のギャップが生じ、実際の飛行中に堅牢なインナー ループ コントローラーの使用が必要となり、ネットワークの制御権限と飛行パフォーマンスが制限されます。
この論文では、インナーループ コントローラーによる制限を受けることなく、リアリティ ギャップの問題に対処する、エンドツーエンドのニューラル ネットワーク コントローラーを初めて調査します。
G\&CNets と呼ばれるこのネットワークは、最適な軌道データセットを使用してクアッドコプターの状態を rpm コマンドにマッピングするエネルギー最適化ポリシーを学習するようにトレーニングされています。
ホバリングからホバリングへの飛行において、モデル化されていない瞬間が現実のギャップに大きく寄与していることを特定しました。
これを軽減するために、一定の外部ピッチ、ロール、ヨー モーメントの影響を受けるシステムの最適な軌道から学習することで機能する適応制御戦略を提案します。
実際のテスト飛行では、このモデルの不一致が機内で推定され、ネットワークに供給されて最適な rpm コマンドが取得されます。
モーメントフィードバックの有無にかかわらず、エネルギー最適化されたホバリングからホバリングへの飛行を実行することで、この方法の有効性を実証します。
最後に、連続ウェイポイント飛行において適応コントローラーを最先端の差動平坦度ベースのコントローラーと比較し、エネルギーの最適性とロバスト性の観点からこの方法の利点を実証します。

要約(オリジナル)

Developing optimal controllers for aggressive high-speed quadcopter flight poses significant challenges in robotics. Recent trends in the field involve utilizing neural network controllers trained through supervised or reinforcement learning. However, the sim-to-real transfer introduces a reality gap, requiring the use of robust inner loop controllers during real flights, which limits the network’s control authority and flight performance. In this paper, we investigate for the first time, an end-to-end neural network controller, addressing the reality gap issue without being restricted by an inner-loop controller. The networks, referred to as G\&CNets, are trained to learn an energy-optimal policy mapping the quadcopter’s state to rpm commands using an optimal trajectory dataset. In hover-to-hover flights, we identified the unmodeled moments as a significant contributor to the reality gap. To mitigate this, we propose an adaptive control strategy that works by learning from optimal trajectories of a system affected by constant external pitch, roll and yaw moments. In real test flights, this model mismatch is estimated onboard and fed to the network to obtain the optimal rpm command. We demonstrate the effectiveness of our method by performing energy-optimal hover-to-hover flights with and without moment feedback. Finally, we compare the adaptive controller to a state-of-the-art differential-flatness-based controller in a consecutive waypoint flight and demonstrate the advantages of our method in terms of energy optimality and robustness.

arxiv情報

著者 Robin Ferede,Guido C. H. E. de Croon,Christophe De Wagter,Dario Izzo
発行日 2023-06-22 12:51:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク