What Matters in Learning A Zero-Shot Sim-to-Real RL Policy for Quadrotor Control? A Comprehensive Study

要約

正確でアジャイルなフライト操作を実行することは、さまざまなアプリケーションの四角体にとって重要です。
従来の象限制御アプローチは、フラットな軌道に依存したり、時間のかかる最適化に依存しているため、柔軟性を制限しています。
最近、RLベースのポリシーは、観察結果をアクションに直接マッピングする能力により、有望な代替手段として浮上し、詳細なシステムの知識と作動の制約の必要性を減らすことができました。
ただし、RLベースのポリシーでは、現実世界に展開されたときに不安定性が発生することが多いSIMからリアルのギャップを埋めることには大きな課題が残っています。
このホワイトペーパーでは、現実世界の四角体でゼロショット展開が可能な堅牢なRLベースの制御ポリシーを学習するための重要な要因を調査します。
5つの重要な要因を特定し、SimpleFlightという名前のPPOベースのトレーニングフレームワークを開発し、これらの5つの手法を統合します。
CrazyFlie QuadrotorでのSimpleFlightの有効性を検証し、最先端のRLベースラインと比較して軌跡追跡エラーが50%以上削減されることを示しています。
SimpleFlightによって導出されたポリシーは、滑らかな多項式の軌跡と、小さな推力から重量の四つ上での不実行のジグザグ軌跡の両方に一貫して優れています。
対照的に、ベースライン方法は、高速または実行不可能な軌跡と格闘しています。
さらなる調査と再現性をサポートするために、SimpleFlightをGPUベースのシミュレーターOmnidronesに統合し、コードおよびモデルチェックポイントへのオープンソースアクセスを提供します。
SimpleFlightが、RLベースの四肢駆除制御を進めるための貴重な洞察を提供することを願っています。
詳細については、プロジェクトWebサイトhttps://sites.google.com/view/simpleflight/をご覧ください。

要約(オリジナル)

Executing precise and agile flight maneuvers is critical for quadrotors in various applications. Traditional quadrotor control approaches are limited by their reliance on flat trajectories or time-consuming optimization, which restricts their flexibility. Recently, RL-based policy has emerged as a promising alternative due to its ability to directly map observations to actions, reducing the need for detailed system knowledge and actuation constraints. However, a significant challenge remains in bridging the sim-to-real gap, where RL-based policies often experience instability when deployed in real world. In this paper, we investigate key factors for learning robust RL-based control policies that are capable of zero-shot deployment in real-world quadrotors. We identify five critical factors and we develop a PPO-based training framework named SimpleFlight, which integrates these five techniques. We validate the efficacy of SimpleFlight on Crazyflie quadrotor, demonstrating that it achieves more than a 50% reduction in trajectory tracking error compared to state-of-the-art RL baselines. The policy derived by SimpleFlight consistently excels across both smooth polynominal trajectories and challenging infeasible zigzag trajectories on small thrust-to-weight quadrotors. In contrast, baseline methods struggle with high-speed or infeasible trajectories. To support further research and reproducibility, we integrate SimpleFlight into a GPU-based simulator Omnidrones and provide open-source access to the code and model checkpoints. We hope SimpleFlight will offer valuable insights for advancing RL-based quadrotor control. For more details, visit our project website at https://sites.google.com/view/simpleflight/.

arxiv情報

著者 Jiayu Chen,Chao Yu,Yuqing Xie,Feng Gao,Yinuo Chen,Shu’ang Yu,Wenhao Tang,Shilong Ji,Mo Mu,Yi Wu,Huazhong Yang,Yu Wang
発行日 2025-05-22 13:18:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク