要約
さまざまなゲームシナリオでは、複数の敵ユニットから固定数のターゲットを選択することは非常に困難な作業です。
この困難は、敵ユニットの脅威レベルとその特徴特性との間の複雑な関係に起因し、ルールベースの評価者の設計を複雑にします。
さらに、従来の監視された学習方法は、この脅威評価の問題に適用されたときに、トレーニング中に明示的なラベルが不足しているという課題に直面しています。
この研究では、脅威評価の問題を強化学習タスクとして再定義し、近位ポリシー最適化(PPO)アルゴリズムに基づいて、効率的な評価者トレーニングアルゴリズムである評価PPOを導入します。
Eval-PPOは、体系的なトレーニングを通じて、多次元の敵の機能と友好ユニットの状態情報を統合し、それにより正確な脅威評価を達成します。
ルールベースの方法と比較して、Eval-PPOは平均成功率の大幅な改善を示し、17.84%増加しています。
要約(オリジナル)
In various game scenarios, selecting a fixed number of targets from multiple enemy units is an extremely challenging task. This difficulty stems from the complex relationship between the threat levels of enemy units and their feature characteristics, which complicates the design of rule-based evaluators. Moreover, traditional supervised learning methods face the challenge of lacking explicit labels during training when applied to this threat evaluation problem. In this study, we redefine the threat evaluation problem as a reinforcement learning task and introduce an efficient evaluator training algorithm, Eval-PPO, based on the Proximal Policy Optimization (PPO) algorithm. Eval-PPO integrates multidimensional enemy features and the state information of friendly units through systematic training, thereby achieving precise threat assessment. Compared with rule-based methods, Eval-PPO demonstrates a significant improvement in average success rate, with an increase of 17.84%.
arxiv情報
著者 | Wuzhou Sun,Siyi Li,Qingxiang Zou,Zixing Liao |
発行日 | 2025-04-25 16:47:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google