TaskFlex Solver for Multi-Agent Pursuit via Automatic Curriculum Learning

要約

この論文では、障害物のある限られた環境で、遅い追跡者が協力して速い回避者を捕まえる、マルチエージェント追跡の問題を扱います。
既存のヒューリスティック アルゴリズムには表現力豊かな調整戦略が欠けていることが多く、タスクの状態に非常に敏感であるため、広範なハイパーパラメータ調整が必要です。
対照的に、強化学習 (RL) はこの問題に適用されており、協力的な追跡戦略を取得できます。
ただし、RL ベースの手法は、膨大な量のトレーニング データと、さまざまなシーン サイズ、障害物の数と速度の変化、回避者と回避者の柔軟な速度比など、さまざまなタスク条件への適応性が限られているため、複雑なシナリオのトレーニングにおいて課題に直面しています。
追っ手。
この研究では、RL とカリキュラム学習を組み合わせて、TaskFlex Solver (TFS) という名前のマルチエージェント追跡問題用の柔軟なソルバーを導入します。このソルバーは、2 次元と 2 次元の両方で多様で動的に変化するタスク条件を持つマルチエージェント追跡問題を解決できます。
3次元シナリオ。
TFS は、トレーニングの進行状況に基づいてタスクの配分を構築するカリキュラム学習方法を利用し、トレーニングの効率と最終的なパフォーマンスを向上させます。
私たちのアルゴリズムは 2 つの主要コンポーネントで構成されています。タスクの成功率を評価し、カリキュラム アーカイブを維持するために中程度の難易度のタスクを選択するタスク エバリュエーターと、ポリシーの改善を最大化するためにカリキュラム アーカイブからタスクをサンプリングしてトレーニング分布を構築するタスク サンプラーです。
実験の結果、TFS はベースラインよりもはるかに強力なパフォーマンスを生み出し、多様で動的に変化するシーンを伴う 2 次元と 3 次元の両方のマルチエージェント追跡問題で 100% に近い捕捉率を達成することが示されています。
プロジェクトの Web サイトは https://sites.google.com/view/tfs-2023 にあります。

要約(オリジナル)

This paper addresses the problem of multi-agent pursuit, where slow pursuers cooperate to capture fast evaders in a confined environment with obstacles. Existing heuristic algorithms often lack expressive coordination strategies and are highly sensitive to task conditions, requiring extensive hyperparameter tuning. In contrast, reinforcement learning (RL) has been applied to this problem and is capable of obtaining cooperative pursuit strategies. However, RL-based methods face challenges in training for complex scenarios due to the vast amount of training data and limited adaptability to varying task conditions, such as different scene sizes, varying numbers and speeds of obstacles, and flexible speed ratios of the evader to the pursuer. In this work, we combine RL and curriculum learning to introduce a flexible solver for multiagent pursuit problems, named TaskFlex Solver (TFS), which is capable of solving multi-agent pursuit problems with diverse and dynamically changing task conditions in both 2-dimensional and 3-dimensional scenarios. TFS utilizes a curriculum learning method that constructs task distributions based on training progress, enhancing training efficiency and final performance. Our algorithm consists of two main components: the Task Evaluator, which evaluates task success rates and selects tasks of moderate difficulty to maintain a curriculum archive, and the Task Sampler, which constructs training distributions by sampling tasks from the curriculum archive to maximize policy improvement. Experiments show that TFS produces much stronger performance than baselines and achieves close to 100% capture rates in both 2-dimensional and 3-dimensional multi-agent pursuit problems with diverse and dynamically changing scenes. The project website is at https://sites.google.com/view/tfs-2023.

arxiv情報

著者 Jiayu Chen,Guosheng Li,Chao Yu,Xinyi Yang,Botian Xu,Huazhong Yang,Yu Wang
発行日 2023-12-19 15:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA パーマリンク