要約
柔らかい昆虫スケールのマイクロ空中車両(IMAVS)は、堅牢で計算効率の良いコントローラーを設計するためのユニークな課題をもたらします。
ミリメートルスケールでは、高速ロボットダイナミクス($ \ sim $ ms)とシステムの遅延、モデルの不確実性、および外乱が飛行パフォーマンスに大きく影響します。
ここでは、システムの遅延と不確実性に対処する深い強化学習(RL)コントローラーを設計します。
このニューラルネットワーク(NN)コントローラーを初期化するために、不確実性に取り組むために遅延とドメインランダム化の専門家のデモを説明するために、状態アクションの再マッチングを備えた修正された動作クローニング(BC)アプローチを提案します。
次に、近位ポリシー最適化(PPO)を適用して、RL中にポリシーを微調整し、パフォーマンスとスムージングコマンドを強化します。
シミュレーションでは、変更されたBCは、ベースラインBCと比較して平均報酬を大幅に増加させます。
PPOを使用してRLは飛行品質を向上させ、コマンドの変動を減らします。
このコントローラーは、それぞれ720 mgと850 mgの重量がある2つの異なる昆虫スケールの空中ロボットに展開します。
ロボットは複数の成功したゼロショットホバリングフライトを実証し、最長50秒、横方向に1.34 cm、高度は0.05 cmのルート平均平方根エラーを示し、最初のエンドツーエンドのディープRLベースのフライトをマークします
ソフト駆動型のIMAV。
要約(オリジナル)
Soft-actuated insect-scale micro aerial vehicles (IMAVs) pose unique challenges for designing robust and computationally efficient controllers. At the millimeter scale, fast robot dynamics ($\sim$ms), together with system delay, model uncertainty, and external disturbances significantly affect flight performances. Here, we design a deep reinforcement learning (RL) controller that addresses system delay and uncertainties. To initialize this neural network (NN) controller, we propose a modified behavior cloning (BC) approach with state-action re-matching to account for delay and domain-randomized expert demonstration to tackle uncertainty. Then we apply proximal policy optimization (PPO) to fine-tune the policy during RL, enhancing performance and smoothing commands. In simulations, our modified BC substantially increases the mean reward compared to baseline BC; and RL with PPO improves flight quality and reduces command fluctuations. We deploy this controller on two different insect-scale aerial robots that weigh 720 mg and 850 mg, respectively. The robots demonstrate multiple successful zero-shot hovering flights, with the longest lasting 50 seconds and root-mean-square errors of 1.34 cm in lateral direction and 0.05 cm in altitude, marking the first end-to-end deep RL-based flight on soft-driven IMAVs.
arxiv情報
著者 | Yi-Hsuan Hsiao,Wei-Tung Chen,Yun-Sheng Chang,Pulkit Agrawal,YuFeng Chen |
発行日 | 2025-02-17 22:45:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google