要約
この論文では、最近提案された強化学習 (EDRL) フレームワークによる経験駆動型の手続き型コンテンツ生成を使用して、無限のオンライン レベル生成を再検討します。
EDRL が反復パターンを生成する傾向があるという観察に触発されて、我々は状態空間閉鎖の概念を定式化します。これにより、無限の地平線のオンライン生成プロセスに出現する可能性のある確率的状態を有限の地平線内で見つけることができます。
理論的な分析を通じて、状態空間の閉鎖は多様性に関する懸念を引き起こしますが、コンテンツの品質を低下させることなく、有限の地平線でトレーニングされた EDRL を無限の地平線のシナリオに一般化することがわかりました。
さらに、EDRL によって生成されたコンテンツの品質と多様性を、広く使用されているスーパー マリオ ブラザーズ ベンチマークでの実証研究を通じて検証します。
実験結果は、EDRL によって生成されたレベルの多様性が状態空間の閉鎖により制限されていることを明らかにしていますが、その品質はトレーニングで指定されたものよりも長い期間では低下しません。
私たちの結果と分析を締めくくると、強化学習による無限のオンラインレベル生成に関する将来の作業は、状態空間の閉鎖と品質の発生を保証しながら、多様性の問題に対処する必要があります。
要約(オリジナル)
In this paper, we revisit endless online level generation with the recently proposed experience-driven procedural content generation via reinforcement learning (EDRL) framework. Inspired by an observation that EDRL tends to generate recurrent patterns, we formulate a notion of state space closure which makes any stochastic state appeared possibly in an infinite-horizon online generation process can be found within a finite-horizon. Through theoretical analysis, we find that even though state space closure arises a concern about diversity, it generalises EDRL trained with a finite-horizon to the infinite-horizon scenario without deterioration of content quality. Moreover, we verify the quality and the diversity of contents generated by EDRL via empirical studies, on the widely used Super Mario Bros. benchmark. Experimental results reveal that the diversity of levels generated by EDRL is limited due to the state space closure, whereas their quality does not deteriorate in a horizon which is longer than the one specified in the training. Concluding our outcomes and analysis, future work on endless online level generation via reinforcement learning should address the issue of diversity while assuring the occurrence of state space closure and quality.
arxiv情報
著者 | Ziqi Wang,Tianye Shu,Jialin Liu |
発行日 | 2023-03-24 10:23:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google