要約
空中戦では、短期的な観点から急速に変化する空気力学とともに、長期的な観点から戦術的に変化する機動を理解する必要があります。
この論文では、空中戦闘におけるポリシーネットワーク用の新しい長期短期時間融合変換器 (TempFuser) を提案します。
私たちの方法では、2 つの LSTM ベースの入力埋め込みを使用して、長期の疎な状態の軌跡と、短期の密な状態の軌跡をエンコードします。
変圧器エンコーダを介して 2 つの埋め込みを統合することにより、この方法はその後、機敏で戦術的な操縦のためのエンドツーエンドの飛行コマンドを導き出します。
TempFuser ベースのポリシー モデルをトレーニングするための深層強化学習フレームワークを策定します。
次に、モデルを広範囲に検証し、忠実度の高い環境でさまざまな敵の航空機に対して他のベースライン モデルよりも優れていることを実証します。
私たちのモデルは、明示的にコード化された事前知識がなくても、基本的な戦闘機の操縦、人間のパイロットのような戦術操縦、および低高度での堅牢な超音速追撃を首尾よく学習します。
ビデオは \url{https://sites.google.com/view/tempfuser} でご覧いただけます。
要約(オリジナル)
Aerial dogfights necessitate understanding the tactically changing maneuvers from a long-term perspective, along with the rapidly changing aerodynamics from a short-term view. In this paper, we propose a novel long short-term temporal fusion transformer (TempFuser) for a policy network in aerial dogfights. Our method uses two LSTM-based input embeddings to encode long-term, sparse state trajectories, as well as short-term, dense state trajectories. By integrating the two embeddings through a transformer encoder, the method subsequently derives end-to-end flight commands for agile and tactical maneuvers. We formulate a deep reinforcement learning framework to train our TempFuser-based policy model. We then extensively validate our model, demonstrating that it outperforms other baseline models against a diverse range of opponent aircraft in a high-fidelity environment. Our model successfully learns basic fighter maneuvers, human pilot-like tactical maneuvers, and robust supersonic pursuit in low altitudes without explicitly coded prior knowledge. Videos are available at \url{https://sites.google.com/view/tempfuser}
arxiv情報
| 著者 | Hyunki Seong,David Hyunchul Shim |
| 発行日 | 2023-08-07 02:28:31+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google