Online Reinforcement Learning-Based Dynamic Adaptive Evaluation Function for Real-Time Strategy Tasks

要約

リアルタイム戦略タスクを効果的に評価するには、動的で予測不可能な環境に対処するための適応メカニズムが必要です。
本研究では、リアルタイム戦略ゲームにおけるオンライン強化学習に基づく動的重み調整機構を利用し、戦場状況変化に対するリアルタイム応答性の評価関数を改善する手法を提案する。
この方法は、従来の静的評価関数に基づいて構築されており、オンライン強化学習で勾配降下法を使用して重みを動的に更新し、安定性を確保するために重み減衰技術を組み込んでいます。
さらに、オンライン強化学習の学習率と減衰率をリアルタイムで調整するために AdamW オプティマイザーが統合されており、手動パラメータ調整への依存性がさらに軽減されます。
ラウンドロビン競争実験により、この方法が IDABCD、IDRTMinimax、ポートフォリオ AI などの計画アルゴリズムにおけるランチェスター戦闘モデル評価関数、Simple 評価関数、Simple Sqrt 評価関数の適用効率が大幅に向上することが実証されました。
この方法ではスコアが大幅に向上し、マップ サイズが大きくなるにつれて強化がより顕著になります。
さらに、この方法による評価関数の計算時間の増加は、すべての評価関数および計画アルゴリズムで 6% 未満に抑えられています。
提案された動的適応評価関数は、リアルタイム戦略タスク評価の有望なアプローチを示しています。

要約(オリジナル)

Effective evaluation of real-time strategy tasks requires adaptive mechanisms to cope with dynamic and unpredictable environments. This study proposes a method to improve evaluation functions for real-time responsiveness to battle-field situation changes, utilizing an online reinforcement learning-based dynam-ic weight adjustment mechanism within the real-time strategy game. Building on traditional static evaluation functions, the method employs gradient descent in online reinforcement learning to update weights dynamically, incorporating weight decay techniques to ensure stability. Additionally, the AdamW optimizer is integrated to adjust the learning rate and decay rate of online reinforcement learning in real time, further reducing the dependency on manual parameter tun-ing. Round-robin competition experiments demonstrate that this method signifi-cantly enhances the application effectiveness of the Lanchester combat model evaluation function, Simple evaluation function, and Simple Sqrt evaluation function in planning algorithms including IDABCD, IDRTMinimax, and Port-folio AI. The method achieves a notable improvement in scores, with the en-hancement becoming more pronounced as the map size increases. Furthermore, the increase in evaluation function computation time induced by this method is kept below 6% for all evaluation functions and planning algorithms. The pro-posed dynamic adaptive evaluation function demonstrates a promising approach for real-time strategy task evaluation.

arxiv情報

著者 Weilong Yang,Jie Zhang,Xunyun Liu,Yanqing Ye
発行日 2025-01-07 14:36:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク