要約
このペーパーでは、AlphaZero、MuZero、Gumbel AlphaZero、Gumbel MuZero を含む 4 つの最先端のアルゴリズムをサポートするゼロ知識学習フレームワークである MiniZero について説明します。
これらのアルゴリズムは多くのゲームで超人的なパフォーマンスを実証していますが、特定のタスクにどのアルゴリズムが最適で効率的であるかは依然として不明です。
MiniZero を通じて、9×9 囲碁と 8×8 オセロの 2 つのボード ゲーム、および 57 の Atari ゲームの各アルゴリズムのパフォーマンスを体系的に評価します。
私たちの経験的発見は次のように要約されます。
2 つのボード ゲームの場合、通常、より多くのシミュレーションを使用すると、パフォーマンスが向上します。
ただし、AlphaZero と MuZero の選択は、ゲームのプロパティによって異なる場合があります。
Atari ゲームの場合、MuZero と Gumbel MuZero の両方を検討する価値があります。
各ゲームには独自の特性があるため、アルゴリズムやシミュレーションが異なると結果も異なります。
さらに、プログレッシブ シミュレーションと呼ばれるアプローチを導入します。これは、トレーニング中のシミュレーション バジェットを段階的に増やして、計算をより効率的に割り当てるものです。
私たちの経験的結果は、プログレッシブ シミュレーションが 2 つのボード ゲームで大幅に優れたパフォーマンスを達成することを示しています。
私たちのフレームワークと訓練されたモデルを公開することで、この論文はゼロ知識学習アルゴリズムに関する将来の研究のベンチマークに貢献し、研究者がアルゴリズムを選択したり、これらのゼロ知識学習ベースラインと比較したりできるように支援します。
要約(オリジナル)
This paper presents MiniZero, a zero-knowledge learning framework that supports four state-of-the-art algorithms, including AlphaZero, MuZero, Gumbel AlphaZero, and Gumbel MuZero. While these algorithms have demonstrated super-human performance in many games, it remains unclear which among them is most suitable or efficient for specific tasks. Through MiniZero, we systematically evaluate the performance of each algorithm in two board games, 9×9 Go and 8×8 Othello, as well as 57 Atari games. Our empirical findings are summarized as follows. For two board games, using more simulations generally results in higher performance. However, the choice of AlphaZero and MuZero may differ based on game properties. For Atari games, both MuZero and Gumbel MuZero are worth considering. Since each game has unique characteristics, different algorithms and simulations yield varying results. In addition, we introduce an approach, called progressive simulation, which progressively increases the simulation budget during training to allocate computation more efficiently. Our empirical results demonstrate that progressive simulation achieves significantly superior performance in two board games. By making our framework and trained models publicly available, this paper contributes a benchmark for future research on zero-knowledge learning algorithms, assisting researchers in algorithm selection and comparison against these zero-knowledge learning baselines.
arxiv情報
著者 | Ti-Rong Wu,Hung Guei,Po-Wei Huang,Pei-Chiun Peng,Ting Han Wei,Chung-Chin Shih,Yun-Jui Tsai |
発行日 | 2023-10-17 14:29:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google