Superior Computer Chess with Model Predictive Control, Reinforcement Learning, and Rollout

要約

この論文では、モデル予測制御 (MPC)、ロールアウト、および強化学習 (RL) の方法論をコンピューター チェスに適用します。
私たちは、利用可能なチェス エンジンがコンポーネントとして使用される、手の選択のための新しいアーキテクチャを導入します。
1 つのエンジンは値空間 MPC/RL スキームの近似で位置評価を提供するために使用され、2 つ目のエンジンは名目上の対戦相手として使用され、真の対戦相手プレーヤーの動きをエミュレートまたは近似します。
私たちのアーキテクチャが位置評価エンジンのパフォーマンスを大幅に向上させることを示します。
言い換えれば、私たちのアーキテクチャは、ベースとなるエンジンのインテリジェンスに加えて、追加のインテリジェンス層を提供します。
これは、強さに関係なく、どのエンジンにも当てはまります。ストックフィッシュやコモドドラゴンなどの上位エンジン (強さはさまざま) も、弱いエンジンも同様です。
構造的には、私たちの基本アーキテクチャは 1 手の先読み検索によって手を選択し、名目上の対戦相手エンジンによって中間手が生成され、その後に別のチェス エンジンによる局面評価が続きます。
名目上の対戦相手を使用しない単純なスキームも、位置評価よりも優れたパフォーマンスを発揮しますが、それほどではありません。
複数ステップの先読みを含む、より複雑なスキームも使用できますが、一般に先読みの長さが長くなるにつれてパフォーマンスが向上する傾向があります。
理論的には、私たちの方法論は一般的なコスト改善特性とニュートン法の超線形収束フレームワークに依存しており、値空間での近似と関連する MPC/RL およびロールアウト/ポリシー反復スキームの基礎となっています。
このフレームワークの重要な要件は、最初の先読みステップが正確に実行される必要があることです。
この事実は私たちのアーキテクチャの選択の指針となっており、入手可能な最高のチェス エンジンであってもパフォーマンスを向上させる上で明らかに重要な要素です。

要約(オリジナル)

In this paper we apply model predictive control (MPC), rollout, and reinforcement learning (RL) methodologies to computer chess. We introduce a new architecture for move selection, within which available chess engines are used as components. One engine is used to provide position evaluations in an approximation in value space MPC/RL scheme, while a second engine is used as nominal opponent, to emulate or approximate the moves of the true opponent player. We show that our architecture improves substantially the performance of the position evaluation engine. In other words our architecture provides an additional layer of intelligence, on top of the intelligence of the engines on which it is based. This is true for any engine, regardless of its strength: top engines such as Stockfish and Komodo Dragon (of varying strengths), as well as weaker engines. Structurally, our basic architecture selects moves by a one-move lookahead search, with an intermediate move generated by a nominal opponent engine, and followed by a position evaluation by another chess engine. Simpler schemes that forego the use of the nominal opponent, also perform better than the position evaluator, but not quite by as much. More complex schemes, involving multistep lookahead, may also be used and generally tend to perform better as the length of the lookahead increases. Theoretically, our methodology relies on generic cost improvement properties and the superlinear convergence framework of Newton’s method, which fundamentally underlies approximation in value space, and related MPC/RL and rollout/policy iteration schemes. A critical requirement of this framework is that the first lookahead step should be executed exactly. This fact has guided our architectural choices, and is apparently an important factor in improving the performance of even the best available chess engines.

arxiv情報

著者 Atharva Gundawar,Yuchao Li,Dimitri Bertsekas
発行日 2024-09-10 13:05:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY パーマリンク