Monte-Carlo tree search with uncertainty propagation via optimal transport


この論文では、確率論的で部分的に観測可能なマルコフ決定プロセス向けに設計されたモンテカルロ木探索 (MCTS) の新しいバックアップ戦略を紹介します。
アクション値の子ノードの Wasserstein 重心として値ノードを計算する新しいバックアップ オペレーターを導入します。
したがって、推定の不確実性がツリー全体でルート ノードに伝播します。
$L^1$-Wasserstein 重心と $\alpha$-divergence の新しい組み合わせを使用するときの新しいバックアップ演算子を、一般化平均バックアップ演算子との注目すべきつながりを引き出すことによって研究します。
楽観的選択とトンプソン サンプリングに基づく 2 つのサンプリング戦略で確率的バックアップ オペレーターを補完し、Wasserstein MCTS アルゴリズムを取得します。


This paper introduces a novel backup strategy for Monte-Carlo Tree Search (MCTS) designed for highly stochastic and partially observable Markov decision processes. We adopt a probabilistic approach, modeling both value and action-value nodes as Gaussian distributions. We introduce a novel backup operator that computes value nodes as the Wasserstein barycenter of their action-value children nodes; thus, propagating the uncertainty of the estimate across the tree to the root node. We study our novel backup operator when using a novel combination of $L^1$-Wasserstein barycenter with $\alpha$-divergence, by drawing a notable connection to the generalized mean backup operator. We complement our probabilistic backup operator with two sampling strategies, based on optimistic selection and Thompson sampling, obtaining our Wasserstein MCTS algorithm. We provide theoretical guarantees of asymptotic convergence to the optimal policy, and an empirical evaluation on several stochastic and partially observable environments, where our approach outperforms well-known related baselines.


著者 Tuan Dam,Pascal Stenger,Lukas Schneider,Joni Pajarinen,Carlo D’Eramo,Odalric-Ambrym Maillard
発行日 2023-09-19 16:32:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI パーマリンク