Proof Number Based Monte-Carlo Tree Search

要約

この論文では、モンテカルロ木探索 (MCTS) と証明番号探索 (PNS) を組み合わせた新しいゲーム探索アルゴリズム PN-MCTS を提案します。
これら 2 つのアルゴリズムは、さまざまな領域での意思決定に適用されて成功しています。
MCTS ツリーに収集された証明番号と反証明番号によって提供される追加の知識が使用される可能性がある 3 つの領域、つまり最終手の選択、サブツリーの解決、および UCB1 選択メカニズムを定義します。
私たちは、ライン オブ アクション ($7$$\times$$7$ および $8$$\times$$8$ ボード サイズ)、MiniShogi、Knightthrough、および Awari のいくつかのゲームでバニラ UCT と対戦し、さまざまな時間設定で可能なすべての組み合わせをテストします。
さらに、MCTS ツリーの上に PNS の追加レイヤーを追加することで、Awari のような引き分けのあるゲームに適切に対処できるように、この新しいアルゴリズムを拡張します。
実験では、PN-MCTS がテストされたすべてのゲーム ドメインで自信を持って MCTS を上回り、ライン オブ アクションで最大 96.2\% の勝率を達成したことが示されています。

要約(オリジナル)

This paper proposes a new game-search algorithm, PN-MCTS, which combines Monte-Carlo Tree Search (MCTS) and Proof-Number Search (PNS). These two algorithms have been successfully applied for decision making in a range of domains. We define three areas where the additional knowledge provided by the proof and disproof numbers gathered in MCTS trees might be used: final move selection, solving subtrees, and the UCB1 selection mechanism. We test all possible combinations on different time settings, playing against vanilla UCT on several games: Lines of Action ($7$$\times$$7$ and $8$$\times$$8$ board sizes), MiniShogi, Knightthrough, and Awari. Furthermore, we extend this new algorithm to properly address games with draws, like Awari, by adding an additional layer of PNS on top of the MCTS tree. The experiments show that PN-MCTS confidently outperforms MCTS in all tested game domains, achieving win rates up to 96.2\% for Lines of Action.

arxiv情報

著者 Jakub Kowalski,Elliot Doe,Mark H. M. Winands,Daniel Górski,Dennis J. N. J. Soemers
発行日 2023-12-21 18:30:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク