要約
オンライン計画は、多くの複雑な連続的な意思決定タスクで高いパフォーマンスを発揮するために不可欠です。
モンテカルロ ツリー検索 (MCTS) は、効率的なオンライン プランニングを実現するために、探索と活用をトレードオフする原則に基づいたメカニズムを採用しており、囲碁、チェス、将棋などの多くの個別の意思決定領域において比較手法よりも優れたパフォーマンスを発揮します。
その後、MCTS の連続ドメインへの拡張が開発されました。
ただし、固有の高い分岐係数と、その結果として生じる検索ツリーのサイズの爆発により、既存の方法が制限されています。
この問題に対処するために、我々は、連続的な状態空間とアクション空間を持つ環境におけるオンライン計画への MCTS の拡張である連続モンテカルロ グラフ検索 (CMCGS) を提案します。
CMCGS は、計画中に複数の州間で同じアクション ポリシーを共有すると高いパフォーマンスが得られるという洞察を利用します。
このアイデアを実装するために、CMCGS は各タイム ステップで同様の状態を限られた数の確率的アクション バンディット ノードにクラスタリングし、MCTS 検索ツリーの代わりに階層化された有向グラフを生成します。
実験による評価では、限られたサンプル予算でのいくつかの複雑な連続 DeepMind Control Suite ベンチマークおよび 2D ナビゲーションおよび探索タスクにおいて、CMCGS が同等の計画手法よりも優れたパフォーマンスを発揮することが示されています。
さらに、CMCGS は並列化によってスケールアップでき、学習されたダイナミクス モデルを使用した連続制御においてクロス エントロピー法 (CEM) よりも優れたパフォーマンスを発揮します。
要約(オリジナル)
Online planning is crucial for high performance in many complex sequential decision-making tasks. Monte Carlo Tree Search (MCTS) employs a principled mechanism for trading off exploration for exploitation for efficient online planning, and it outperforms comparison methods in many discrete decision-making domains such as Go, Chess, and Shogi. Subsequently, extensions of MCTS to continuous domains have been developed. However, the inherent high branching factor and the resulting explosion of the search tree size are limiting the existing methods. To address this problem, we propose Continuous Monte Carlo Graph Search (CMCGS), an extension of MCTS to online planning in environments with continuous state and action spaces. CMCGS takes advantage of the insight that, during planning, sharing the same action policy between several states can yield high performance. To implement this idea, at each time step, CMCGS clusters similar states into a limited number of stochastic action bandit nodes, which produce a layered directed graph instead of an MCTS search tree. Experimental evaluation shows that CMCGS outperforms comparable planning methods in several complex continuous DeepMind Control Suite benchmarks and 2D navigation and exploration tasks with limited sample budgets. Furthermore, CMCGS can be scaled up through parallelization, and it outperforms the Cross-Entropy Method (CEM) in continuous control with learned dynamics models.
arxiv情報
著者 | Kalle Kujanpää,Amin Babadi,Yi Zhao,Juho Kannala,Alexander Ilin,Joni Pajarinen |
発行日 | 2024-02-07 15:56:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google