要約
多くの複雑な連続的な意思決定タスクでは、オンライン計画が高いパフォーマンスを実現するために不可欠です。
効率的なオンライン計画を行うために、モンテカルロ ツリー検索 (MCTS) は、探索と活用をトレードオフする原則に基づいたメカニズムを採用しています。
MCTS は、囲碁、チェス、将棋などの多くの個別の意思決定領域において、比較手法よりも優れたパフォーマンスを発揮します。
次に、MCTS の連続ドメインへの拡張が提案されています。
ただし、固有の高い分岐係数と、その結果として生じる検索ツリー サイズの爆発により、既存の方法が制限されています。
この問題に対処するために、我々は、連続的な状態空間とアクション空間を持つ環境におけるオンライン計画への MCTS の新たな拡張である連続モンテカルロ グラフ検索 (CMCGS) を提案します。
CMCGS は、計画中に複数の州間で同じアクション ポリシーを共有すると高いパフォーマンスが得られるという洞察を利用します。
このアイデアを実装するために、CMCGS は各タイム ステップで同様の状態を限られた数の確率的アクション バンディット ノードにクラスタリングし、MCTS 検索ツリーの代わりに階層化された有向グラフを生成します。
実験による評価では、CMCGS が、いくつかの複雑な連続 DeepMind Control Suite ベンチマークおよび限られたサンプル予算での 2D ナビゲーション タスクにおいて、同等の計画手法よりも優れたパフォーマンスを発揮することが示されています。
さらに、CMCGS は並列化してスケールアップすることができ、学習されたダイナミクス モデルを使用した連続制御においてクロス エントロピー法 (CEM) よりも優れたパフォーマンスを発揮します。
要約(オリジナル)
In many complex sequential decision-making tasks, online planning is crucial for high performance. For efficient online planning, Monte Carlo Tree Search (MCTS) employs a principled mechanism for trading off exploration for exploitation. MCTS outperforms comparison methods in many discrete decision-making domains such as Go, Chess, and Shogi. Following, extensions of MCTS to continuous domains have been proposed. However, the inherent high branching factor and the resulting explosion of search tree size are limiting existing methods. To address this problem, we propose Continuous Monte Carlo Graph Search (CMCGS), a novel extension of MCTS to online planning in environments with continuous state and action spaces. CMCGS takes advantage of the insight that, during planning, sharing the same action policy between several states can yield high performance. To implement this idea, at each time step, CMCGS clusters similar states into a limited number of stochastic action bandit nodes, which produce a layered directed graph instead of an MCTS search tree. Experimental evaluation shows that CMCGS outperforms comparable planning methods in several complex continuous DeepMind Control Suite benchmarks and a 2D navigation task with limited sample budgets. Furthermore, CMCGS can be parallelized to scale up and it outperforms the Cross-Entropy Method (CEM) in continuous control with learned dynamics models.
arxiv情報
著者 | Kalle Kujanpää,Amin Babadi,Yi Zhao,Juho Kannala,Alexander Ilin,Joni Pajarinen |
発行日 | 2023-07-18 07:49:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google