Time-optimal Flight in Cluttered Environments via Safe Reinforcement Learning

要約

この論文では、衝突を回避しながら飛行時間を最小限に抑えることを目的として、雑然とした環境で事前に定義されたウェイポイントのシーケンスを通じてクアッドローターを誘導する問題について取り上げます。
以前のアプローチは、複雑な非凸最適化問題を解くことによって計算時間が長くなるか、多項式軌道表現の固有の滑らかさによって制限され、それによって動きの柔軟性が制限されます。
この研究では、雑然とした環境で時間的に最適な飛行を行う自律ドローンレースのための安全な強化学習アプローチを紹介します。
ほぼ最適な時間で衝突のない飛行を強制するように特別に設計された安全性と最終報酬を使用してトレーニングされた強化学習ポリシーは、現在の最先端のアルゴリズムを上回ります。
さらに、実験結果は、複雑な環境における最小飛行時間と障害物回避目標の両方を達成する際の提案されたアプローチの有効性を実証しており、目に見えない困難な設定において賞賛に値する $66.7\%$ の成功率を示しています。

要約(オリジナル)

This paper addresses the problem of guiding a quadrotor through a predefined sequence of waypoints in cluttered environments, aiming to minimize the flight time while avoiding collisions. Previous approaches either suffer from prolonged computational time caused by solving complex non-convex optimization problems or are limited by the inherent smoothness of polynomial trajectory representations, thereby restricting the flexibility of movement. In this work, we present a safe reinforcement learning approach for autonomous drone racing with time-optimal flight in cluttered environments. The reinforcement learning policy, trained using safety and terminal rewards specifically designed to enforce near time-optimal and collision-free flight, outperforms current state-of-the-art algorithms. Additionally, experimental results demonstrate the efficacy of the proposed approach in achieving both minimum flight time and obstacle avoidance objectives in complex environments, with a commendable $66.7\%$ success rate in unseen, challenging settings.

arxiv情報

著者 Wei Xiao,Zhaohan Feng,Ziyu Zhou,Jian Sun,Gang Wang,Jie Chen
発行日 2024-06-28 04:21:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク