Proof Number Based Monte-Carlo Tree Search

要約

この論文では、モンテカルロ木探索 (MCTS) と証明数探索 (PNS) を組み合わせた新しいゲーム探索アルゴリズム PN-MCTS を提案します。
これら 2 つのアルゴリズムは、さまざまなドメインでの意思決定にうまく適用されています。
MCTS ツリーで収集された証明番号と反証番号によって提供される追加の知識が使用される可能性のある 3 つの領域を定義します。最終的な動きの選択、サブツリーの解決、および UCT 式です。
さまざまな時間設定で可能なすべての組み合わせをテストし、いくつかのゲームでバニラ UCT MCTS と対戦します: Lines of Action ($7$$\times$$7$ および $8$$\times$$8$)、MiniShogi、Knightthrough、Awari、および Gomoku
.
さらに、この新しいアルゴリズムを拡張して、MCTS ツリーの上に PNS の追加レイヤーを追加することで、Awari のような引き分けのあるゲームに適切に対処します。
実験では、PN-MCTS が 6 つのゲーム ドメインのうち 5 つ (五目並べを除くすべて) で MCTS を確実に上回り、Lines of Action で最大 96.2% の勝率を達成したことが示されています。

要約(オリジナル)

This paper proposes a new game search algorithm, PN-MCTS, that combines Monte-Carlo Tree Search (MCTS) and Proof-Number Search (PNS). These two algorithms have been successfully applied for decision making in a range of domains. We define three areas where the additional knowledge provided by the proof and disproof numbers gathered in MCTS trees might be used: final move selection, solving subtrees, and the UCT formula. We test all possible combinations on different time settings, playing against vanilla UCT MCTS on several games: Lines of Action ($7$$\times$$7$ and $8$$\times$$8$), MiniShogi, Knightthrough, Awari, and Gomoku. Furthermore, we extend this new algorithm to properly address games with draws, like Awari, by adding an additional layer of PNS on top of the MCTS tree. The experiments show that PN-MCTS confidently outperforms MCTS in 5 out of 6 game domains (all except Gomoku), achieving win rates up to 96.2% for Lines of Action.

arxiv情報

著者 Elliot Doe,Mark H. M. Winands,Jakub Kowalski,Dennis J. N. J. Soemers,Daniel Górski,Cameron Browne
発行日 2023-03-16 16:27:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク