要約
4四頭角は顕著な汎用性を実証していますが、それらの完全な好気性の可能性は、固有の過小評価と攻撃的な操作の複雑さのためにほとんど未開発のままです。
軌跡の最適化と追跡制御を分離する従来のアプローチは、不正確さ、計算レイテンシ、および初期条件に対する感度の追跡に苦しみ、動的で高アピリティシナリオの有効性を制限します。
データ駆動型の方法の最近のブレークスルーに触発された私たちは、ドローン状態とエアロバティックの意図を直接マップする強化学習ベースのフレームワークとコマンドを制御するためのエアロバティックな意図を提案し、極度のエアロバティック操縦のエンドツーエンドのポリシー最適化を実行できるようにモジュール式分離を排除します。
効率的かつ安定したトレーニングを確保するために、好気性タスクの難易度を動的に調整する自動カリキュラム学習戦略を導入します。
堅牢なゼロショットSIMからリアルへの転送のためにドメインランダム化によって有効になっているこのアプローチは、移動したゲートを反応的にナビゲートしながら自律的に逆逆飛行を実行し、前例のない俊敏性を示しながら、自律的に逆転飛行を実行するドローンの最初のデモンストレーションを含む、要求の厳しい実世界の実験で検証されています。
要約(オリジナル)
Quadrotors have demonstrated remarkable versatility, yet their full aerobatic potential remains largely untapped due to inherent underactuation and the complexity of aggressive maneuvers. Traditional approaches, separating trajectory optimization and tracking control, suffer from tracking inaccuracies, computational latency, and sensitivity to initial conditions, limiting their effectiveness in dynamic, high-agility scenarios. Inspired by recent breakthroughs in data-driven methods, we propose a reinforcement learning-based framework that directly maps drone states and aerobatic intentions to control commands, eliminating modular separation to enable quadrotors to perform end-to-end policy optimization for extreme aerobatic maneuvers. To ensure efficient and stable training, we introduce an automated curriculum learning strategy that dynamically adjusts aerobatic task difficulty. Enabled by domain randomization for robust zero-shot sim-to-real transfer, our approach is validated in demanding real-world experiments, including the first demonstration of a drone autonomously performing continuous inverted flight while reactively navigating a moving gate, showcasing unprecedented agility.
arxiv情報
著者 | Zhichao Han,Xijie Huang,Zhuxiu Xu,Jiarui Zhang,Yuze Wu,Mingyang Wang,Tianyue Wu,Fei Gao |
発行日 | 2025-05-30 09:24:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google