要約
無人の戦闘航空機(UCAV)ドッグファイトは、通常、近くの2つ以上のUCAV間の戦いを指し、空中の戦場で決定的な役割を果たします。
人工知能の進化に伴い、ドッグファイトは徐々にインテリジェントモードで自律的なモードに向かって通過します。
ただし、自律的なドッグファイトポリシー学習の開発は、弱い探査能力、低学習効率、非現実的なシミュレーション環境などの課題によって妨げられています。
これらの課題を克服するために、このペーパーでは、自律的な調査を可能にしながら専門家のデータを効率的に活用する新しい模倣強化学習フレームワークを提案します。
提案されたフレームワークは、専門家の模倣を通じて学習効率を向上させるだけでなく、強化学習を伴う自律探査を介して動的環境への適応性を保証します。
したがって、提案されたフレームワークは、UCAVの「追跡ロック発売」という成功したドッグファイトポリシーを学ぶことができます。
データ駆動型の学習をサポートするために、harfang3Dサンドボックスに基づいてドッグファイト環境を確立し、そこで広範な実験を実施します。
結果は、提案されたフレームワークが多段階のドッグファイトに優れており、最先端の強化学習と模倣学習方法を大幅に上回ることを示しています。
専門家と自律的な探求を模倣する能力のおかげで、私たちのフレームワークは、複雑な航空戦闘タスクの重要な知識を迅速に学び、最大100%の成功率を達成し、優れた堅牢性を実証することができます。
要約(オリジナル)
Unmanned Combat Aerial Vehicle (UCAV) dogfight, which refers to a fight between two or more UCAVs usually at close quarters, plays a decisive role on the aerial battlefields. With the evolution of artificial intelligence, dogfight progressively transits towards intelligent and autonomous modes. However, the development of autonomous dogfight policy learning is hindered by challenges such as weak exploration capabilities, low learning efficiency, and unrealistic simulated environments. To overcome these challenges, this paper proposes a novel imitative reinforcement learning framework, which efficiently leverages expert data while enabling autonomous exploration. The proposed framework not only enhances learning efficiency through expert imitation, but also ensures adaptability to dynamic environments via autonomous exploration with reinforcement learning. Therefore, the proposed framework can learn a successful dogfight policy of ‘pursuit-lock-launch’ for UCAVs. To support data-driven learning, we establish a dogfight environment based on the Harfang3D sandbox, where we conduct extensive experiments. The results indicate that the proposed framework excels in multistage dogfight, significantly outperforms state-of-the-art reinforcement learning and imitation learning methods. Thanks to the ability of imitating experts and autonomous exploration, our framework can quickly learn the critical knowledge in complex aerial combat tasks, achieving up to a 100% success rate and demonstrating excellent robustness.
arxiv情報
著者 | Siyuan Li,Rongchang Zuo,Bofei Liu,Peng Liu,Yingnan Zhao |
発行日 | 2025-03-10 13:46:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google