What Matters in Learning A Zero-Shot Sim-to-Real RL Policy for Quadrotor Control? A Comprehensive Study

要約

正確かつ機敏な飛行操作を実行することは、さまざまな用途のクアッドローターにとって重要です。
従来のクアッドローター制御アプローチは、平坦な軌道や時間のかかる最適化への依存によって制限されており、柔軟性が制限されています。
最近、RL ベースのポリシーが、観測結果をアクションに直接マッピングできるため、システムの詳細な知識と作動制約の必要性が軽減されるため、有望な代替手段として浮上しています。
ただし、シミュレーションと現実のギャップを埋めるには大きな課題が残っており、RL ベースのポリシーは現実世界に展開されると不安定になることがよくあります。
この論文では、現実世界のクワッドローターでゼロショット導入が可能な堅牢な RL ベースの制御ポリシーを学習するための重要な要素を調査します。
私たちは 5 つの重要な要素を特定し、これら 5 つの技術を統合した SimpleFlight という名前の PPO ベースのトレーニング フレームワークを開発しました。
私たちは、Crazyflie クアローター上で SimpleFlight の有効性を検証し、最先端の RL ベースラインと比較して軌道追跡エラーの 50% 以上の削減を達成し、従来の MPC と比較して 70% の改善を達成することを実証しました。
SimpleFlight によって導き出されたポリシーは、滑らかな多項式軌道と、推力対重量が小さいクワッドローターでの困難な実行不可能なジグザグ軌道の両方にわたって一貫して優れています。
対照的に、ベースライン手法は高速または実行不可能な軌道に苦労します。
さらなる研究と再現性をサポートするために、SimpleFlight を GPU ベースのシミュレーター Omnidrones に統合し、コードとモデルのチェックポイントへのオープンソース アクセスを提供します。
SimpleFlight が、RL ベースのクアローター制御を進化させるための貴重な洞察を提供することを期待しています。
詳細については、プロジェクトの Web サイト (https://sites.google.com/view/simpleflight/) をご覧ください。

要約(オリジナル)

Executing precise and agile flight maneuvers is critical for quadrotors in various applications. Traditional quadrotor control approaches are limited by their reliance on flat trajectories or time-consuming optimization, which restricts their flexibility. Recently, RL-based policy has emerged as a promising alternative due to its ability to directly map observations to actions, reducing the need for detailed system knowledge and actuation constraints. However, a significant challenge remains in bridging the sim-to-real gap, where RL-based policies often experience instability when deployed in real world. In this paper, we investigate key factors for learning robust RL-based control policies that are capable of zero-shot deployment in real-world quadrotors. We identify five critical factors and we develop a PPO-based training framework named SimpleFlight, which integrates these five techniques. We validate the efficacy of SimpleFlight on Crazyflie quadrotor, demonstrating that it achieves more than a 50% reduction in trajectory tracking error compared to state-of-the-art RL baselines, and achieves 70% improvement over the traditional MPC. The policy derived by SimpleFlight consistently excels across both smooth polynominal trajectories and challenging infeasible zigzag trajectories on small thrust-to-weight quadrotors. In contrast, baseline methods struggle with high-speed or infeasible trajectories. To support further research and reproducibility, we integrate SimpleFlight into a GPU-based simulator Omnidrones and provide open-source access to the code and model checkpoints. We hope SimpleFlight will offer valuable insights for advancing RL-based quadrotor control. For more details, visit our project website at https://sites.google.com/view/simpleflight/.

arxiv情報

著者 Jiayu Chen,Chao Yu,Yuqing Xie,Feng Gao,Yinuo Chen,Shu’ang Yu,Wenhao Tang,Shilong Ji,Mo Mu,Yi Wu,Huazhong Yang,Yu Wang
発行日 2024-12-17 12:04:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク