Autoverse: An Evolvable Game Language for Learning Robust Embodied Agents

要約

シングルプレイヤー 2D グリッドベース ゲーム用の進化可能なドメイン固有言語である Autoverse を紹介し、オープンエンド学習 (OEL) アルゴリズムのスケーラブルなトレーニングの場としてのその使用法を示します。
Autoverse は、セル オートマトンのような書き換えルールを使用してゲーム メカニクスを記述し、強化学習 (RL) エージェントの人気のテストベッドであるさまざまなゲーム環境 (迷路、ダンジョン、倉庫番パズルなど) を表現できるようにします。
各書き換えルールは一連の単純な畳み込みとして表現できるため、GPU 上で環境を並列化できるため、RL トレーニングが大幅に高速化されます。
Autoverseを用いて、探索からの模倣学習による飛躍的なオープンエンド型学習を提案します。
このようなアプローチでは、まず Autoverse 環境 (そのルールと初期マップ トポロジ) を進化させ、新しい最適なソリューションを発見するために貪欲なツリー検索に必要な反復回数を最大化し、ますます複雑になる環境とプレイトレースのカリキュラムを生成します。
次に、模倣学習を使用して、これらの専門家によるプレイトレースをニューラル ネットワーク ベースのポリシーに抽出します。
最後に、学習したポリシーをオープンエンド RL の開始点として使用します。そこでは、RL プレーヤー エージェントの価値関数エラー (後悔の代用、または生成された環境の学習可能性) を最大化するために新しいトレーニング環境が継続的に進化し、次のことがわかります。
このアプローチにより、結果として得られるプレーヤー エージェントのパフォーマンスと汎用性が向上します。

要約(オリジナル)

We introduce Autoverse, an evolvable, domain-specific language for single-player 2D grid-based games, and demonstrate its use as a scalable training ground for Open-Ended Learning (OEL) algorithms. Autoverse uses cellular-automaton-like rewrite rules to describe game mechanics, allowing it to express various game environments (e.g. mazes, dungeons, sokoban puzzles) that are popular testbeds for Reinforcement Learning (RL) agents. Each rewrite rule can be expressed as a series of simple convolutions, allowing for environments to be parallelized on the GPU, thereby drastically accelerating RL training. Using Autoverse, we propose jump-starting open-ended learning by imitation learning from search. In such an approach, we first evolve Autoverse environments (their rules and initial map topology) to maximize the number of iterations required by greedy tree search to discover a new best solution, producing a curriculum of increasingly complex environments and playtraces. We then distill these expert playtraces into a neural-network-based policy using imitation learning. Finally, we use the learned policy as a starting point for open-ended RL, where new training environments are continually evolved to maximize the RL player agent’s value function error (a proxy for its regret, or the learnability of generated environments), finding that this approach improves the performance and generality of resultant player agents.

arxiv情報

著者 Sam Earle,Julian Togelius
発行日 2024-08-06 09:39:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク