An Imitative Reinforcement Learning Framework for Autonomous Dogfight

要約

無人戦闘航空機 (UCAV) の空中戦は、通常至近距離での 2 台以上の UCAV 間の戦闘を指し、空中戦場では決定的な役割を果たします。
人工知能の進化に伴い、ドッグファイトは徐々にインテリジェントで自律的なモードに移行します。
しかし、自律的な空中戦ポリシー学習の開発は、弱い探索能力、低い学習効率、非現実的なシミュレート環境などの課題によって妨げられています。
これらの課題を克服するために、この論文では、自律的な探索を可能にしながら専門家のデータを効率的に活用する、新しい模倣強化学習フレームワークを提案します。
提案されたフレームワークは、専門家の模倣を通じて学習効率を高めるだけでなく、強化学習による自律的な探索を通じて動的環境への適応性を確保します。
したがって、提案されたフレームワークは、UCAV の「追跡-ロック-発射」の成功した空中戦ポリシーを学習できます。
データ駆動型学習をサポートするために、Harfang3D サンドボックスに基づいたドッグファイト環境を構築し、そこで広範な実験を行っています。
結果は、提案されたフレームワークが多段階の空中戦に優れ、最先端の強化学習や模倣学習手法を大幅に上回っていることを示しています。
専門家を模倣する能力と自律探索能力のおかげで、私たちのフレームワークは複雑な空中戦闘タスクにおける重要な知識を迅速に学習することができ、最大 100% の成功率を達成し、優れた堅牢性を実証します。

要約(オリジナル)

Unmanned Combat Aerial Vehicle (UCAV) dogfight, which refers to a fight between two or more UCAVs usually at close quarters, plays a decisive role on the aerial battlefields. With the evolution of artificial intelligence, dogfight progressively transits towards intelligent and autonomous modes. However, the development of autonomous dogfight policy learning is hindered by challenges such as weak exploration capabilities, low learning efficiency, and unrealistic simulated environments. To overcome these challenges, this paper proposes a novel imitative reinforcement learning framework, which efficiently leverages expert data while enabling autonomous exploration. The proposed framework not only enhances learning efficiency through expert imitation, but also ensures adaptability to dynamic environments via autonomous exploration with reinforcement learning. Therefore, the proposed framework can learn a successful dogfight policy of ‘pursuit-lock-launch’ for UCAVs. To support data-driven learning, we establish a dogfight environment based on the Harfang3D sandbox, where we conduct extensive experiments. The results indicate that the proposed framework excels in multistage dogfight, significantly outperforms state-of-the-art reinforcement learning and imitation learning methods. Thanks to the ability of imitating experts and autonomous exploration, our framework can quickly learn the critical knowledge in complex aerial combat tasks, achieving up to a 100% success rate and demonstrating excellent robustness.

arxiv情報

著者 Siyuan Li,Rongchang Zuo,Peng Liu,Yingnan Zhao
発行日 2024-06-17 13:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク