Vision-driven Autonomous Flight of UAV Along River Using Deep Reinforcement Learning with Dynamic Expert Guidance

要約

救助や監視などの複雑な河川環境に沿った無人航空機 (UAV) の視覚主導の自律飛行と障害物回避には、堅牢な制御ポリシーが必要ですが、訓練可能な河川環境シミュレーターの不足と報酬の少なさのため、それを入手するのはまだ困難です。
そのような環境。
実際の展開前に河川追跡タスクのナビゲーション コントローラーのパフォーマンスを簡単に検証するために、Unity を使用してトレーニング可能な写真のようにリアルなダイナミクスのない河川シミュレーション環境を開発しました。
環境内で成功した河川追跡軌跡は手動で収集され、行動クローン (BC) を使用して模倣学習 (IL) エージェントが訓練され、専門家の行動を模倣し、専門家のガイダンスが生成されます。
最後に、BC エキスパートのガイダンスを使用して深層強化学習 (DRL) エージェントをトレーニングし、DRL によって生成された優れたデモンストレーションをサンプリングすることでエキスパート ポリシーをオンラインで改善し、収束率とポリシーのパフォーマンスを向上させるフレームワークが提案されています。
このフレームワークは、川沿いの自律ナビゲーション タスクを解決し、ベースラインの RL および IL 手法を上回るパフォーマンスを発揮します。
コードとトレーニング可能な環境が利用可能です。

要約(オリジナル)

Vision-driven autonomous flight and obstacle avoidance of Unmanned Aerial Vehicles (UAVs) along complex riverine environments for tasks like rescue and surveillance requires a robust control policy, which is yet difficult to obtain due to the shortage of trainable river environment simulators and reward sparsity in such environments. To easily verify the navigation controller performance for the river following task before real-world deployment, we developed a trainable photo-realistic dynamics-free riverine simulation environment using Unity. Successful river following trajectories in the environment are manually collected and Behavior Clone (BC) is used to train an Imitation Learning (IL) agent to mimic expert behavior and generate expert guidance. Finally, a framework is proposed to train a Deep Reinforcement Learning (DRL) agent using BC expert guidance and improve the expert policy online by sampling good demonstrations produced by the DRL to increase convergence rate and policy performance. This framework is able to solve the along-river autonomous navigation task and outperform baseline RL and IL methods. The code and trainable environments are available.

arxiv情報

著者 Zihan Wang,Jianwen Li,Nina Mahmoudian
発行日 2024-01-17 16:55:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク