A Competition Winning Deep Reinforcement Learning Agent in microRTS

要約

スクリプト エージェントは、CIG と CoG で主催された IEEE microRTS ($\mu$RTS) コンテストの過去 5 回で主に優勝しています。
深層強化学習 (DRL) アルゴリズムは、リアルタイム ストラテジー (RTS) ゲームにおいて大きな進歩を遂げていますが、この主に学術的なコンテストでの採用は、必要とされる相当なトレーニング リソースと、そのようなエージェントの作成とデバッグに固有の複雑さのため、限られています。
RAISocketAI は、IEEE microRTS コンペティションで優勝した最初の DRL エージェントです。
パフォーマンスの制約がないベンチマークでは、RAISocketAI は以前のコンテストの勝者 2 社を定期的に破っていました。
この最初のコンテストで優勝した DRL 提出物は、将来の microRTS コンテストのベンチマークとなり、将来の DRL 研究の出発点となる可能性があります。
基本ポリシーを繰り返し微調整し、特定のマップに学習を転移することが、RAISocketAI の優れたパフォーマンスにとって重要でした。
これらの戦略を使用すると、将来の DRL エージェントを経済的にトレーニングできます。
行動クローニングを使用した模倣学習のさらなる研究と、DRL によるこれらのモデルの微調整は、実証された競合的な行動でモデルをブートストラップする効率的な方法として有望であることが証明されています。

要約(オリジナル)

Scripted agents have predominantly won the five previous iterations of the IEEE microRTS ($\mu$RTS) competitions hosted at CIG and CoG. Despite Deep Reinforcement Learning (DRL) algorithms making significant strides in real-time strategy (RTS) games, their adoption in this primarily academic competition has been limited due to the considerable training resources required and the complexity inherent in creating and debugging such agents. RAISocketAI is the first DRL agent to win the IEEE microRTS competition. In a benchmark without performance constraints, RAISocketAI regularly defeated the two prior competition winners. This first competition-winning DRL submission can be a benchmark for future microRTS competitions and a starting point for future DRL research. Iteratively fine-tuning the base policy and transfer learning to specific maps were critical to RAISocketAI’s winning performance. These strategies can be used to economically train future DRL agents. Further work in Imitation Learning using Behavior Cloning and fine-tuning these models with DRL has proven promising as an efficient way to bootstrap models with demonstrated, competitive behaviors.

arxiv情報

著者 Scott Goodfriend
発行日 2025-01-02 06:50:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク