Robust Imitation Learning for Automated Game Testing

要約

ゲーム開発は、製品が市場に投入されるまでに多くの段階を伴う長いプロセスです。
人間によるプレイ テストは、テスターがコード内のエラーを探すタスクを繰り返し実行する必要があるため、最も時間がかかります。
したがって、自動テストは開発コストと効率を大幅に向上させるため、ゲーム業界にとって重要なテクノロジーとみなされています。
この目的に向けて、我々は行動クローニング (BC) とエネルギーベースモデル (EBM) を組み合わせた新しい模倣学習ベースのアーキテクチャである EVOLUTE を提案します。
EVOLUTE は、自律エージェントのアクション空間を連続タスクと離散タスクに分割する 2 ストリーム アンサンブル モデルです。
EBM ストリームは継続的なタスクを処理して、より洗練された適応的な制御を実現します。一方、BC ストリームはトレーニングを容易にするために個別のアクションを処理します。
私たちは、エージェントがナビゲートし、攻撃対象のターゲットを継続的に特定する必要があるシューティング アンド ドライビング ゲームにおける EVOLUTE のパフォーマンスを評価します。
提案されたモデルは、標準的な BC アプローチよりも高い一般化機能を備えており、より広範囲の動作とより高いパフォーマンスを示します。
また、EVOLUTE は純粋なエンドツーエンド EBM モデルよりもトレーニングが簡単です。これは、個別のタスクがデータセット内で非常にまばらになる可能性があり、モデルのトレーニングでトレーニング中に可能なアクションのより広範なセットを探索するためです。

要約(オリジナル)

Game development is a long process that involves many stages before a product is ready for the market. Human play testing is among the most time consuming, as testers are required to repeatedly perform tasks in the search for errors in the code. Therefore, automated testing is seen as a key technology for the gaming industry, as it would dramatically improve development costs and efficiency. Toward this end, we propose EVOLUTE, a novel imitation learning-based architecture that combines behavioural cloning (BC) with energy based models (EBMs). EVOLUTE is a two-stream ensemble model that splits the action space of autonomous agents into continuous and discrete tasks. The EBM stream handles the continuous tasks, to have a more refined and adaptive control, while the BC stream handles discrete actions, to ease training. We evaluate the performance of EVOLUTE in a shooting-and-driving game, where the agent is required to navigate and continuously identify targets to attack. The proposed model has higher generalisation capabilities than standard BC approaches, showing a wider range of behaviours and higher performances. Also, EVOLUTE is easier to train than a pure end-to-end EBM model, as discrete tasks can be quite sparse in the dataset and cause model training to explore a much wider set of possible actions while training.

arxiv情報

著者 Pierluigi Vito Amadori,Timothy Bradley,Ryan Spick,Guy Moss
発行日 2024-01-09 14:18:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク