Monte-Carlo tree search with uncertainty propagation via optimal transport

要約

この論文では、確率論的で部分的に観測可能なマルコフ決定プロセス向けに設計されたモンテカルロ木探索 (MCTS) の新しいバックアップ戦略を紹介します。
私たちは確率的アプローチを採用し、価値ノードとアクション価値ノードの両方をガウス分布としてモデル化します。
アクション値の子ノードの Wasserstein 重心として値ノードを計算する新しいバックアップ オペレーターを導入します。
したがって、推定の不確実性がツリー全体でルート ノードに伝播します。
$L^1$-Wasserstein 重心と $\alpha$-divergence の新しい組み合わせを使用するときの新しいバックアップ演算子を、一般化平均バックアップ演算子との注目すべきつながりを引き出すことによって研究します。
楽観的選択とトンプソン サンプリングに基づく 2 つのサンプリング戦略で確率的バックアップ オペレーターを補完し、Wasserstein MCTS アルゴリズムを取得します。
私たちは、最適なポリシーへの漸近収束の理論的保証と、いくつかの確率的で部分的に観測可能な環境での経験的評価を提供します。そこでは、私たちのアプローチはよく知られている関連するベースラインを上回ります。

要約(オリジナル)

This paper introduces a novel backup strategy for Monte-Carlo Tree Search (MCTS) designed for highly stochastic and partially observable Markov decision processes. We adopt a probabilistic approach, modeling both value and action-value nodes as Gaussian distributions. We introduce a novel backup operator that computes value nodes as the Wasserstein barycenter of their action-value children nodes; thus, propagating the uncertainty of the estimate across the tree to the root node. We study our novel backup operator when using a novel combination of $L^1$-Wasserstein barycenter with $\alpha$-divergence, by drawing a notable connection to the generalized mean backup operator. We complement our probabilistic backup operator with two sampling strategies, based on optimistic selection and Thompson sampling, obtaining our Wasserstein MCTS algorithm. We provide theoretical guarantees of asymptotic convergence to the optimal policy, and an empirical evaluation on several stochastic and partially observable environments, where our approach outperforms well-known related baselines.

arxiv情報

著者 Tuan Dam,Pascal Stenger,Lukas Schneider,Joni Pajarinen,Carlo D’Eramo,Odalric-Ambrym Maillard
発行日 2023-09-19 16:32:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク