Inverted Landing in a Small Aerial Robot via Deep Reinforcement Learning for Triggering and Control of Rotational Maneuvers

要約

タイトル:深層強化学習による小型空中ロボットの逆着陸における回転運動のトリガーと制御

要約:
– 小型空中ロボットによる迅速かつ堅牢な逆着陸は、オンボードセンシングと計算に完全に依存しなければならないため、困難な課題である。
– しかし、コウモリ、ハエ、ミツバチなどの生物飛行者は、この課題を常に達成している。
– 先行研究では、信頼性の高い空中特技を実行するためのオンボードビジュアルキューと運動アクションの一連の直接的な因果関係が特定されている。
– 本研究では、物理ベースのシミュレーションと深層強化学習を使用して、任意のアプローチ条件から堅牢な逆着陸を開始するための一般的な最適制御ポリシーを獲得し、さらに制御の回転運動を含むシステムの観察空間からモーターコマンド行動空間への効率的なマッピングを提供する。
– 大きさや方向に変化するアプローチフライト速度の範囲でシステムをトレーニングして、独自の制御ポリシーを最適化した。
– 次に、ドメインランダム化を介したシミュレーションからリアルへのシミュレーション転送と実験的な検証を行い、逆着陸の成功を決定する主要なメカニズムと着陸堅牢性を大幅に向上させるためのいくつかの優れた要因を特定した。
– この研究で開発された学習フレームワークは、ノイズのあるオンボードセンサーデータを活用したり、さまざまな方向に向かって着陸したり、動的に移動する表面に着陸したりするなど、より困難な課題を解決するために一般化できると期待される。

要約(オリジナル)

Inverted landing in a rapid and robust manner is a challenging feat for aerial robots, especially while depending entirely on onboard sensing and computation. In spite of this, this feat is routinely performed by biological fliers such as bats, flies, and bees. Our previous work has identified a direct causal connection between a series of onboard visual cues and kinematic actions that allow for reliable execution of this challenging aerobatic maneuver in small aerial robots. In this work, we first utilized Deep Reinforcement Learning and a physics-based simulation to obtain a general, optimal control policy for robust inverted landing starting from any arbitrary approach condition. This optimized control policy provides a computationally-efficient mapping from the system’s observational space to its motor command action space, including both triggering and control of rotational maneuvers. This was done by training the system over a large range of approach flight velocities that varied with magnitude and direction. Next, we performed a sim-to-real transfer and experimental validation of the learned policy via domain randomization, by varying the robot’s inertial parameters in the simulation. Through experimental trials, we identified several dominant factors which greatly improved landing robustness and the primary mechanisms that determined inverted landing success. We expect the learning framework developed in this study can be generalized to solve more challenging tasks, such as utilizing noisy onboard sensory data, landing on surfaces of various orientations, or landing on dynamically-moving surfaces.

arxiv情報

著者 Bryan Habas,Jack W. Langelaan,Bo Cheng
発行日 2023-04-25 13:58:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク