A General Infrastructure and Workflow for Quadrotor Deep Reinforcement Learning and Reality Deployment

要約

構造化されていない屋外環境でロボット学習方法を四輪に展開することはエキサイティングな作業です。
学習ベースの方法によって現実世界の環境で動作する四重節は、いくつかの課題に遭遇します。トレーニングに必要な大量のシミュレータ生成データ、オンボードのリアルタイム処理の厳格な要求、および動的でノイズの多い条件によって引き起こされるSIMからリアルのギャップ。
現在の作品は、学習ベースの方法を四つ上場の制御に適用する際に大きなブレークスルーをもたらしましたが、インフラストラクチャシステムのトレーニングをゼロからめったに言及し、現実に展開することはめったにありません。
このギャップを埋めるために、エンドツーエンドのディープ補強学習(DRL)ポリシーのシームレスな転送を可能にするプラットフォームを提案します。
トレーニング環境、フライトダイナミクスコントロール、DRLアルゴリズム、Mavrosミドルウェアスタック、ハードウェアを包括的なワークフローとアーキテクチャに統合し、数分で四角いポリシーをゼロから現実世界の展開にトレーニングできるようにします。
当社のプラットフォームは、物理的な実験ベンチマークとして、ホバリング、動的障害物の回避、軌跡追跡、バルーンの打撃、未知の環境での計画など、豊富なタイプの環境を提供します。
広範な経験的検証を通じて、実世界の摂動の下で提案されたSIMからリアルプラットフォームの効率、および堅牢な屋外飛行性能を実証します。
詳細については、当社のWebサイトhttps://emnavi.tech/airgym/からご覧いただけます。

要約(オリジナル)

Deploying robot learning methods to a quadrotor in unstructured outdoor environments is an exciting task. Quadrotors operating in real-world environments by learning-based methods encounter several challenges: a large amount of simulator generated data required for training, strict demands for real-time processing onboard, and the sim-to-real gap caused by dynamic and noisy conditions. Current works have made a great breakthrough in applying learning-based methods to end-to-end control of quadrotors, but rarely mention the infrastructure system training from scratch and deploying to reality, which makes it difficult to reproduce methods and applications. To bridge this gap, we propose a platform that enables the seamless transfer of end-to-end deep reinforcement learning (DRL) policies. We integrate the training environment, flight dynamics control, DRL algorithms, the MAVROS middleware stack, and hardware into a comprehensive workflow and architecture that enables quadrotors’ policies to be trained from scratch to real-world deployment in several minutes. Our platform provides rich types of environments including hovering, dynamic obstacle avoidance, trajectory tracking, balloon hitting, and planning in unknown environments, as a physical experiment benchmark. Through extensive empirical validation, we demonstrate the efficiency of proposed sim-to-real platform, and robust outdoor flight performance under real-world perturbations. Details can be found from our website https://emnavi.tech/AirGym/.

arxiv情報

著者 Kangyao Huang,Hao Wang,Yu Luo,Jingyu Chen,Jintao Chen,Xiangkui Zhang,Xiangyang Ji,Huaping Liu
発行日 2025-04-21 14:25:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク