Search-contempt: a hybrid MCTS algorithm for training AlphaZero-like engines with better computational efficiency

要約

2017年のAlphazeroは、数千万ドルで計算予算を実行して、数百万のゲーム(自己プレイ)に対して何百万ものゲームをプレイすることで、人間の知識なしにチェスやその他のゲームをマスターすることができました。
Monte Carlo Tree Search(MCTS)アルゴリズムのバリアントを使用しました。
このペーパーでは、MCTSアルゴリズムの新しいハイブリッドバリアントであるSearch-Contemptを紹介します。これは、自己プレイで生成された位置の分布を根本的に変化させ、より挑戦的なポジションを好みます。
さらに、検索コンテンツは、オッズチェス(片側が最初から好ましくない位置を受け取る)のエンジンの強さを大きく後押しすることが示されています。
さらに重要なことは、数十万のトレーニングゲームが走るトレーニングゲームの数と、アルファゼロが必要とする数千万ドルのトレーニングゲームの代わりに数万ドルの費用がかかるため、自己プレイベースのエンジンをはるかに計算効率の良い方法でトレーニングする可能性を開きます。
これは、非常に限られた計算、コスト、または時間の予算でも、標準消費者GPUでそのようなプログラムをゼロからトレーニングすることが最終的に可能になる可能性があることを意味します。

要約(オリジナル)

AlphaZero in 2017 was able to master chess and other games without human knowledge by playing millions of games against itself (self-play), with a computation budget running in the tens of millions of dollars. It used a variant of the Monte Carlo Tree Search (MCTS) algorithm, known as PUCT. This paper introduces search-contempt, a novel hybrid variant of the MCTS algorithm that fundamentally alters the distribution of positions generated in self-play, preferring more challenging positions. In addition, search-contempt has been shown to give a big boost in strength for engines in Odds Chess (where one side receives an unfavorable position from the start). More significantly, it opens up the possibility of training a self-play based engine, in a much more computationally efficient manner with the number of training games running into hundreds of thousands, costing tens of thousands of dollars (instead of tens of millions of training games costing millions of dollars required by AlphaZero). This means that it may finally be possible to train such a program from zero on a standard consumer GPU even with a very limited compute, cost, or time budget.

arxiv情報

著者 Ameya Joshi
発行日 2025-04-10 13:56:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク