Monte Carlo Tree Search with Boltzmann Exploration

要約

ツリーに適用される上限信頼限界 (UCT) などのモンテカルロ ツリー検索 (MCTS) 手法は、自動計画手法に役立ちます。
ただし、UCT は、最初は他のアクションよりも劣っているように見える場合、最適なアクションの探索に時間がかかることがあります。
Maximum ENtropy Tree-Search (MENTS) は、最大エントロピーの原理を MCTS アプローチに組み込み、ボルツマン ポリシーを利用してアクションをサンプリングし、自然にさらなる探索を促進します。
この論文では、MENTS の主要な制限を強調します。それは、最大エントロピーの目的に対する最適なアクションが、元の目的に対する最適なアクションに必ずしも対応するとは限りません。
ボルツマン ツリー検索 (BTS) と減衰エントロピー ツリー検索 (DENTS) という 2 つのアルゴリズムを導入します。これらのアルゴリズムは、これらの制限に対処し、Alias メソッドを使用してアクションをより高速にサンプリングできるなど、ボルツマン ポリシーの利点を維持します。
当社の実証分析により、当社のアルゴリズムは囲碁ゲームを含むいくつかのベンチマーク ドメインにわたって一貫した高いパフォーマンスを示すことが示されています。

要約(オリジナル)

Monte-Carlo Tree Search (MCTS) methods, such as Upper Confidence Bound applied to Trees (UCT), are instrumental to automated planning techniques. However, UCT can be slow to explore an optimal action when it initially appears inferior to other actions. Maximum ENtropy Tree-Search (MENTS) incorporates the maximum entropy principle into an MCTS approach, utilising Boltzmann policies to sample actions, naturally encouraging more exploration. In this paper, we highlight a major limitation of MENTS: optimal actions for the maximum entropy objective do not necessarily correspond to optimal actions for the original objective. We introduce two algorithms, Boltzmann Tree Search (BTS) and Decaying ENtropy Tree-Search (DENTS), that address these limitations and preserve the benefits of Boltzmann policies, such as allowing actions to be sampled faster by using the Alias method. Our empirical analysis shows that our algorithms show consistent high performance across several benchmark domains, including the game of Go.

arxiv情報

著者 Michael Painter,Mohamed Baioumy,Nick Hawes,Bruno Lacerda
発行日 2024-04-11 13:25:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク