Learning to Play Pursuit-Evasion with Dynamic and Sensor Constraints

要約

車のようなダイナミクスとセンシングの制限を持つ 2 人のプレーヤー間の追跡回避ゲームを解決するためのマルチエージェント強化学習アプローチを紹介します。
私たちは、既存のマルチエージェント決定論的ポリシー勾配アルゴリズムのカリキュラムを開発して、両方のプレイヤーの戦略を同時に取得し、学習した戦略を屋内環境で 2 m/s の速度で移動する実際のロボットに展開します。
実験を通じて、学習された戦略は、追跡者の捕獲率の点で既存のベースラインよりも最大 30% 向上することを示しています。
学習された回避者モデルは、競合する追跡者モデルと比較しても、ベースラインを超えて最大 5% 優れた逃走率を示します。
また、プレイヤーのダイナミクスやセンサーの制約が変化するにつれて、追跡回避ゲームとその結果がどのように進化するかを示す実験結果も紹介します。
最後に、F1TENTH プラットフォームと JetRacer プラットフォーム間のゲーム用に学習したポリシーを物理ロボットに展開し、学習した戦略が実際のロボットで実行できることを示します。
私たちのコードと実験のビデオを含む補足資料は、https://gonultasbu.github.io/pursuit-evasion/ で入手できます。

要約(オリジナル)

We present a multi-agent reinforcement learning approach to solve a pursuit-evasion game between two players with car-like dynamics and sensing limitations. We develop a curriculum for an existing multi-agent deterministic policy gradient algorithm to simultaneously obtain strategies for both players, and deploy the learned strategies on real robots moving as fast as 2 m/s in indoor environments. Through experiments we show that the learned strategies improve over existing baselines by up to 30% in terms of capture rate for the pursuer. The learned evader model has up to 5% better escape rate over the baselines even against our competitive pursuer model. We also present experiment results which show how the pursuit-evasion game and its results evolve as the player dynamics and sensor constraints are varied. Finally, we deploy learned policies on physical robots for a game between the F1TENTH and JetRacer platforms and show that the learned strategies can be executed on real-robots. Our code and supplementary material including videos from experiments are available at https: //gonultasbu.github.io/pursuit-evasion/.

arxiv情報

著者 Burak M. Gonultas,Volkan Isler
発行日 2024-05-08 18:56:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク