Synergistic Reinforcement and Imitation Learning for Vision-driven Autonomous Flight of UAV Along River

要約

救助や監視などのタスクのために、複雑な河川環境に沿って無人航空機 (UAV) を視覚駆動の自律飛行および障害物回避するには、堅牢な制御ポリシーが必要ですが、訓練可能な河川環境シミュレーターが不足しているため、これを入手するのはまだ困難です。
現実世界に展開する前に、河川追跡タスクのビジョンベースのナビゲーション コントローラーのパフォーマンスを簡単に検証するために、Unity を使用してトレーニング可能な写真のようにリアルなダイナミクスのない河川シミュレーション環境を開発しました。
この論文では、バニラの強化学習 (RL) アルゴリズムが、この部分的に観測可能な非マルコフ環境内でナビゲーション ポリシーを学習する際に遭遇する欠点に対処します。
私たちは、RL と模倣学習 (IL) を統合する相乗的なアプローチを提案します。
最初に、IL 専門家は手動で収集されたデモンストレーションについてトレーニングを受け、その後、RL ポリシーのトレーニング プロセスをガイドします。
同時に、RL エージェントによって生成された経験を利用して IL エキスパートを再トレーニングし、目に見えないデータを一般化する能力を強化します。
RL と IL の両方の長所を活用することで、このフレームワークは、純粋な RL、純粋な IL、および静的 IL アルゴリズムと組み合わせた RL と比較して、より速い収束速度とより高いパフォーマンスを実現します。
結果は、タスクの完了と効率の両方の観点から、提案された方法の有効性を検証します。
コードとトレーニング可能な環境が利用可能です。

要約(オリジナル)

Vision-driven autonomous flight and obstacle avoidance of Unmanned Aerial Vehicles (UAVs) along complex riverine environments for tasks like rescue and surveillance requires a robust control policy, which is yet difficult to obtain due to the shortage of trainable riverine environment simulators. To easily verify the vision-based navigation controller performance for the river following task before real-world deployment, we developed a trainable photo-realistic dynamics-free riverine simulation environment using Unity. In this paper, we address the shortcomings that vanilla Reinforcement Learning (RL) algorithm encounters in learning a navigation policy within this partially observable, non-Markovian environment. We propose a synergistic approach that integrates RL and Imitation Learning (IL). Initially, an IL expert is trained on manually collected demonstrations, which then guides the RL policy training process. Concurrently, experiences generated by the RL agent are utilized to re-train the IL expert, enhancing its ability to generalize to unseen data. By leveraging the strengths of both RL and IL, this framework achieves a faster convergence rate and higher performance compared to pure RL, pure IL, and RL combined with static IL algorithms. The results validate the efficacy of the proposed method in terms of both task completion and efficiency. The code and trainable environments are available.

arxiv情報

著者 Zihan Wang,Jianwen Li,Nina Mahmoudian
発行日 2024-04-29 19:20:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク