要約
複数の追跡者からの敵対的な物理的攻撃がある中でドローンを安全に航行することは、困難な課題です。
この論文では、複数の進化した追跡者の行動から学習してその行動に迅速に適応し、ドローンが攻撃を回避して到達できるようにする敵対的ニューラル ネットワークを訓練するための、非同期多段階深層強化学習 (AMS-DRL) という新しいアプローチを提案します。
そのターゲット。
具体的には、AMS-DRL は追跡回避ゲームで敵対的エージェントを進化させます。このゲームでは、追跡者と回避者が複数の段階で二部グラフ方式で非同期的にトレーニングされます。
私たちのアプローチは、ゲーム理論分析からエージェント間のナッシュ均衡を確保することで収束を保証します。
私たちは広範なシミュレーションでこの方法を評価し、ベースラインよりも高いナビゲーション成功率で優れたパフォーマンスを示すことを示しました。
また、相対最大速度などのパラメーターがナビゲーションのパフォーマンスにどのように影響するかも分析します。
さらに、物理実験を実施し、リアルタイムの飛行における訓練されたポリシーの有効性を検証しました。
成功率ヒートマップは、空間ジオメトリがナビゲーションの結果にどのように影響するかを解明するために導入されています。
プロジェクト Web サイト: https://github.com/NTU-ICG/AMS-DRL-for-Pursuit-Evasion。
要約(オリジナル)
Safe navigation of drones in the presence of adversarial physical attacks from multiple pursuers is a challenging task. This paper proposes a novel approach, asynchronous multi-stage deep reinforcement learning (AMS-DRL), to train adversarial neural networks that can learn from the actions of multiple evolved pursuers and adapt quickly to their behavior, enabling the drone to avoid attacks and reach its target. Specifically, AMS-DRL evolves adversarial agents in a pursuit-evasion game where the pursuers and the evader are asynchronously trained in a bipartite graph way during multiple stages. Our approach guarantees convergence by ensuring Nash equilibrium among agents from the game-theory analysis. We evaluate our method in extensive simulations and show that it outperforms baselines with higher navigation success rates. We also analyze how parameters such as the relative maximum speed affect navigation performance. Furthermore, we have conducted physical experiments and validated the effectiveness of the trained policies in real-time flights. A success rate heatmap is introduced to elucidate how spatial geometry influences navigation outcomes. Project website: https://github.com/NTU-ICG/AMS-DRL-for-Pursuit-Evasion.
arxiv情報
著者 | Jiaping Xiao,Mir Feroskhan |
発行日 | 2024-02-21 02:34:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google