Learned Controllers for Agile Quadrotors in Pursuit-Evasion Games

要約

民間および軍事空域における小型無人機の増加する普及は、特に無許可または悪意のあるドローンが制限区域に侵入した場合、重大な安全性とセキュリティの懸念を引き起こしている。この研究では、機敏な1対1のクアドローター追跡回避のための強化学習(RL)フレームワークを提示する。我々は、クアドローターの非線形ダイナミクスを十分に活用した高速追跡と回避操縦を可能にする、ボディレートと集団推力を指令するニューラルネットワークポリシーを訓練する。敵対的な共同学習中の非定常性と壊滅的な忘却を緩和するために、我々は非同期多段階母集団ベース(AMSPB)アルゴリズムを導入し、各段階で、追跡者または回避者のいずれかが、過去と現在のポリシーの成長集団から引き出されたサンプリングされた相手に対して学習する。この継続的な学習設定により、単調な性能向上と以前の戦略の保持が保証される。我々の結果は、(i)速度ベースの方針は、速度レベルのベースラインよりも有意に高い捕捉率とピーク速度を達成すること、(ii)AMSPBは、一連のベンチマーク相手に対して安定した単調な利得をもたらすことを示す。

要約(オリジナル)

The increasing proliferation of small UAVs in civilian and military airspace has raised critical safety and security concerns, especially when unauthorized or malicious drones enter restricted zones. In this work, we present a reinforcement learning (RL) framework for agile 1v1 quadrotor pursuit-evasion. We train neural network policies to command body rates and collective thrust, enabling high-speed pursuit and evasive maneuvers that fully exploit the quadrotor’s nonlinear dynamics. To mitigate nonstationarity and catastrophic forgetting during adversarial co-training, we introduce an Asynchronous Multi-Stage Population-Based (AMSPB) algorithm where, at each stage, either the pursuer or evader learns against a sampled opponent drawn from a growing population of past and current policies. This continual learning setup ensures monotonic performance improvement and retention of earlier strategies. Our results show that (i) rate-based policies achieve significantly higher capture rates and peak speeds than velocity-level baselines, and (ii) AMSPB yields stable, monotonic gains against a suite of benchmark opponents.

arxiv情報

著者 Alejandro Sanchez Roncero,Olov Andersson,Petter Ogren
発行日 2025-06-03 13:19:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO パーマリンク