PCGRL+: Scaling, Control and Generalization in Reinforcement Learning Level Generators

要約

強化学習による手続き型コンテンツ生成 (PCGRL) は、レベルの品質と主要な特性の代理として機能する計算可能なメトリックのセットのみに基づいて、制御可能なデザイナー エージェントをトレーニングできる手段として導入されました。
PCGRL はゲーム デザイナーに独自のアフォーダンス セットを提供しますが、RL エージェントをトレーニングする計算集約的なプロセスによって制約を受け、これまでは比較的小さなレベルの生成に限定されていました。
この規模の問題に対処するために、Jax でいくつかの PCGRL 環境を実装し、学習とシミュレーションのすべての側面が GPU 上で並行して行われるようにし、その結果、環境シミュレーションが高速化されます。
RL トレーニング中の CPU と GPU 間の情報転送のボトルネックを解消します。
そして最終的にトレーニング速度が大幅に向上します。
この新しいフレームワークでは、以前の研究で得られたいくつかの重要な結果を再現し、以前に研究されたよりもはるかに長い時間モデルを訓練させ、10億タイムステップ後の動作を評価しました。
人間の設計者によるより優れた制御を目指して、過剰適合に対抗するさらなる方法として、ランダム化されたレベル サイズと重要なゲーム タイルの凍結された「ピンポイント」を導入します。
学習されたジェネレーターの汎化能力をテストするために、分布外の大きなマップ サイズでモデルを評価したところ、部分的な観測サイズがより堅牢な設計戦略を学習することがわかりました。

要約(オリジナル)

Procedural Content Generation via Reinforcement Learning (PCGRL) has been introduced as a means by which controllable designer agents can be trained based only on a set of computable metrics acting as a proxy for the level’s quality and key characteristics. While PCGRL offers a unique set of affordances for game designers, it is constrained by the compute-intensive process of training RL agents, and has so far been limited to generating relatively small levels. To address this issue of scale, we implement several PCGRL environments in Jax so that all aspects of learning and simulation happen in parallel on the GPU, resulting in faster environment simulation; removing the CPU-GPU transfer of information bottleneck during RL training; and ultimately resulting in significantly improved training speed. We replicate several key results from prior works in this new framework, letting models train for much longer than previously studied, and evaluating their behavior after 1 billion timesteps. Aiming for greater control for human designers, we introduce randomized level sizes and frozen ‘pinpoints’ of pivotal game tiles as further ways of countering overfitting. To test the generalization ability of learned generators, we evaluate models on large, out-of-distribution map sizes, and find that partial observation sizes learn more robust design strategies.

arxiv情報

著者 Sam Earle,Zehua Jiang,Julian Togelius
発行日 2024-08-22 16:30:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク