Replication of Multi-agent Reinforcement Learning for the ‘Hide and Seek’ Problem

要約

強化学習は、報酬関数とハイパーパラメーターに基づいてポリシーを生成します。
これらのわずかな変更が結果に大きな影響を与える可能性があります。
強化学習研究には文書化と再現性が欠如しているため、一度推定された戦略を再現することが困難になります。
これまでの研究では地上機動を使用した戦略が特定されていましたが、より複雑な環境では効果が限られています。
この研究のエージェントは、飛行メカニズムに加えて、オープン アルのかくれんぼエージェントと同様にシミュレートされており、機動性が強化され、可能な行動と戦略の範囲が拡大されています。
この追加機能により、ハイダー エージェントは、約 200 万ステップから 160 万ステップとハイダーへの追跡戦略を開発できるようになります。

要約(オリジナル)

Reinforcement learning generates policies based on reward functions and hyperparameters. Slight changes in these can significantly affect results. The lack of documentation and reproducibility in Reinforcement learning research makes it difficult to replicate once-deduced strategies. While previous research has identified strategies using grounded maneuvers, there is limited work in more complex environments. The agents in this study are simulated similarly to Open Al’s hider and seek agents, in addition to a flying mechanism, enhancing their mobility, and expanding their range of possible actions and strategies. This added functionality improves the Hider agents to develop a chasing strategy from approximately 2 million steps to 1.6 million steps and hiders

arxiv情報

著者 Haider Kamal,Muaz A. Niazi,Hammad Afzal
発行日 2023-10-09 06:06:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, 68T07, 68T42, 93A16, cs.AI, cs.LG, cs.MA, cs.RO, I.2.11 パーマリンク