要約
この研究論文では、スーパー マリオ ブラザーズをプレイするニューラル ネットワークをトレーニングするための強化学習に Reptile アルゴリズムを使用する実験的アプローチを紹介します。スーパー マリオ ブラザーズ ジム ライブラリと Python の TensorFlow を使用して Reptile アルゴリズムを実装し、次のようなニューラル ネットワーク モデルを作成します。
単一の畳み込み層、平坦化層、および密な層。
オプティマイザーを定義し、Reptile クラスを使用して Reptile メタ学習アルゴリズムのインスタンスを作成します。
複数のタスクとエピソードを使用してモデルをトレーニングし、ニューラル ネットワーク モデルの現在の重みを使用してアクションを選択し、環境内でそれらのアクションを実行し、Reptile アルゴリズムを使用してモデルの重みを更新します。
各エピソードの合計報酬を出力することで、アルゴリズムのパフォーマンスを評価します。
さらに、Reptile アルゴリズム アプローチのパフォーマンスを、同じスーパー マリオ ブラザーズのタスクに適用された他の 2 つの一般的な強化学習アルゴリズムである近接ポリシー最適化 (PPO) とディープ Q ネットワーク (DQN) と比較します。
私たちの結果は、Reptile アルゴリズムがビデオ ゲーム AI における少数ショット学習への有望なアプローチを提供し、特に 100 万エピソードのトレーニングでエージェントが実行する移動距離の観点から、他の 2 つのアルゴリズムと同等またはそれ以上のパフォーマンスを発揮することを示しています。
結果は、ゲーム環境におけるワールド 1-2 の最高合計距離が ~1732 (PPO)、~1840 (DQN)、~2300 (RAMario) であることを示しています。
完全なコードは https://github.com/s4nyam/RAMario で入手できます。
要約(オリジナル)
This research paper presents an experimental approach to using the Reptile algorithm for reinforcement learning to train a neural network to play Super Mario Bros. We implement the Reptile algorithm using the Super Mario Bros Gym library and TensorFlow in Python, creating a neural network model with a single convolutional layer, a flatten layer, and a dense layer. We define the optimizer and use the Reptile class to create an instance of the Reptile meta-learning algorithm. We train the model using multiple tasks and episodes, choosing actions using the current weights of the neural network model, taking those actions in the environment, and updating the model weights using the Reptile algorithm. We evaluate the performance of the algorithm by printing the total reward for each episode. In addition, we compare the performance of the Reptile algorithm approach to two other popular reinforcement learning algorithms, Proximal Policy Optimization (PPO) and Deep Q-Network (DQN), applied to the same Super Mario Bros task. Our results demonstrate that the Reptile algorithm provides a promising approach to few-shot learning in video game AI, with comparable or even better performance than the other two algorithms, particularly in terms of moves vs distance that agent performs for 1M episodes of training. The results shows that best total distance for world 1-2 in the game environment were ~1732 (PPO), ~1840 (DQN) and ~2300 (RAMario). Full code is available at https://github.com/s4nyam/RAMario.
arxiv情報
著者 | Sanyam Jain |
発行日 | 2023-05-16 17:54:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google