Adversarial Search and Track with Multiagent Reinforcement Learning in Sparsely Observable Environment

要約

この論文では、動的検索エージェントのチームが、その位置に関する時間的および空間的知識がまばらなだけで敵対的回避エージェントを捕捉するための検索および追跡 (S&T) 問題を研究します。
このドメインは、広い空間により敵対者の観察がまばらになり、検索エージェントへの報酬がまばらになるため、従来の強化学習 (RL) アプローチにとっては困難です。
さらに、対戦相手の行動は検索エージェントに対して反動的であり、検索エージェントがポリシーを改善するにつれて、トレーニング中に RL のデータ配布に変化が生じます。
我々は、推定された敵の位置情報を補完する新しいフィルタリング モジュールを利用し、チーム ポリシーの効果的な学習を可能にする微分可能なマルチエージェント RL (MARL) アーキテクチャを提案します。
当社のアルゴリズムは、データ分布の変化に対する回復力を維持するために、事前の知識と動作モデルからの情報のバランスを取る方法を学習し、検出率が 46% 向上してすべてのベースライン手法を上回ります。

要約(オリジナル)

We study a search and tracking (S&T) problem for a team of dynamic search agents to capture an adversarial evasive agent with only sparse temporal and spatial knowledge of its location in this paper. The domain is challenging for traditional Reinforcement Learning (RL) approaches as the large space leads to sparse observations of the adversary and in turn sparse rewards for the search agents. Additionally, the opponent’s behavior is reactionary to the search agents, which causes a data distribution shift for RL during training as search agents improve their policies. We propose a differentiable Multi-Agent RL (MARL) architecture that utilizes a novel filtering module to supplement estimated adversary location information and enables the effective learning of a team policy. Our algorithm learns how to balance information from prior knowledge and a motion model to remain resilient to the data distribution shift and outperforms all baseline methods with a 46% increase of detection rate.

arxiv情報

著者 Zixuan Wu,Sean Ye,Manisha Natarajan,Letian Chen,Rohan Paleja,Matthew C. Gombolay
発行日 2023-06-20 05:31:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク