Provably Efficient Long-Horizon Exploration in Monte Carlo Tree Search through State Occupancy Regularization

要約

モンテカルロ木探索 (MCTS) はさまざまな分野で成功していますが、急速探索ランダム ツリーのようなサンプリング ベースの動作計画アルゴリズムと比較すると、長期探索において課題に直面しています。
MCTS のこれらの制限に対処するために、状態占有測定の正則化によるポリシー最適化に基づいたツリー検索アルゴリズムを導出します。これを {\it Volume-MCTS} と呼びます。
カウントベースの探索とサンプリングベースの動作計画が、この状態占有測定の正規化目標に対する近似解として導出できることを示します。
いくつかのロボット ナビゲーションの問題でこの方法をテストしたところ、ボリューム MCTS が AlphaZero よりも優れたパフォーマンスを示し、大幅に優れた長距離探索特性を示すことがわかりました。

要約(オリジナル)

Monte Carlo tree search (MCTS) has been successful in a variety of domains, but faces challenges with long-horizon exploration when compared to sampling-based motion planning algorithms like Rapidly-Exploring Random Trees. To address these limitations of MCTS, we derive a tree search algorithm based on policy optimization with state occupancy measure regularization, which we call {\it Volume-MCTS}. We show that count-based exploration and sampling-based motion planning can be derived as approximate solutions to this state occupancy measure regularized objective. We test our method on several robot navigation problems, and find that Volume-MCTS outperforms AlphaZero and displays significantly better long-horizon exploration properties.

arxiv情報

著者 Liam Schramm,Abdeslam Boularias
発行日 2024-07-07 22:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク