A Hierarchical Reinforcement Learning Framework for Multi-UAV Combat Using Leader-Follower Strategy

要約

Multi-UAV航空戦闘は、航空宇宙と人工知能の両方で進化する分野である複数の自律UAVを含む複雑なタスクです。
このペーパーは、共同戦略を通じて敵対的なパフォーマンスを強化することを目的としています。
以前のアプローチは、アクション空間を事前定義されたアクションに主に離散化し、UAVの操作性と複雑な戦略の実装を制限しています。
他の人は、問題を1V1戦闘に簡素化し、複数のUAV間の協同組合のダイナミクスを無視します。
6度のフリードムスペースに固有の高次元の課題に対処し、協力を改善するために、リーダーフォロワーの多因子近位政策最適化(LFMAPPO)戦略を利用する階層的なフレームワークを提案します。
具体的には、フレームワークは3つのレベルに構成されています。
トップレベルは、環境のマクロレベルの評価を実施し、実行ポリシーをガイドします。
中間レベルは、目的のアクションの角度を決定します。
一番下のレベルは、高次元のアクション空間の正確なアクションコマンドを生成します。
さらに、トップレベルのポリシーをトレーニングするためにリーダーフォロワー戦略で異なる役割を割り当てることにより、状態価値関数を最適化し、フォロワーはリーダーの有用性を推定し、エージェント間の効果的な協力を促進します。
さらに、UAVSの姿勢に合わせたターゲットセレクターの組み込みは、ターゲットの脅威レベルを評価します。
最後に、シミュレーション実験は、提案された方法の有効性を検証します。

要約(オリジナル)

Multi-UAV air combat is a complex task involving multiple autonomous UAVs, an evolving field in both aerospace and artificial intelligence. This paper aims to enhance adversarial performance through collaborative strategies. Previous approaches predominantly discretize the action space into predefined actions, limiting UAV maneuverability and complex strategy implementation. Others simplify the problem to 1v1 combat, neglecting the cooperative dynamics among multiple UAVs. To address the high-dimensional challenges inherent in six-degree-of-freedom space and improve cooperation, we propose a hierarchical framework utilizing the Leader-Follower Multi-Agent Proximal Policy Optimization (LFMAPPO) strategy. Specifically, the framework is structured into three levels. The top level conducts a macro-level assessment of the environment and guides execution policy. The middle level determines the angle of the desired action. The bottom level generates precise action commands for the high-dimensional action space. Moreover, we optimize the state-value functions by assigning distinct roles with the leader-follower strategy to train the top-level policy, followers estimate the leader’s utility, promoting effective cooperation among agents. Additionally, the incorporation of a target selector, aligned with the UAVs’ posture, assesses the threat level of targets. Finally, simulation experiments validate the effectiveness of our proposed method.

arxiv情報

著者 Jinhui Pang,Jinglin He,Noureldin Mohamed Abdelaal Ahmed Mohamed,Changqing Lin,Zhihui Zhang,Xiaoshuai Hao
発行日 2025-01-22 02:41:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO, cs.SY, eess.SY パーマリンク