E-MCTS: Deep Exploration in Model-Based Reinforcement Learning by Planning with Epistemic Uncertainty

要約

モデルベースの強化学習 (MBRL) で使用される、最もよく研​​究され、パフォーマンスの高い計画アプローチの 1 つは、モンテカルロ ツリー検索 (MCTS) です。
MCTS ベースの MBRL 手法の主要な課題は依然として、未知の状況に直面したときの深い探索と信頼性に特化しており、両方の課題は、MCTS の予測における原則に基づいた認識論的不確実性推定によって軽減できます。
我々は主に 2 つの貢献を紹介します。まず、MCTS で認識論的不確実性を伝播する方法論を開発し、エージェントが予測の認識論的不確実性を推定できるようにします。
第二に、明示的に探索を計画することにより、伝播された不確実性を新しい深層探索アルゴリズムに利用します。
私たちは、学習および提供されたダイナミクスモデルを使用して、MCTSベースのMBRLアプローチのバリエーションに私たちのアプローチを組み込み、私たちのアプローチによって達成された認識論的不確実性推定の成功を通じて深い探索を経験的に示します。
非計画ベースの深部探査ベースラインと比較し、調査された深部探査ベンチマークにおいて、認識論的 MCTS を使用した計画が非計画ベースの探査よりも大幅に優れていることを示します。

要約(オリジナル)

One of the most well-studied and highly performing planning approaches used in Model-Based Reinforcement Learning (MBRL) is Monte-Carlo Tree Search (MCTS). Key challenges of MCTS-based MBRL methods remain dedicated deep exploration and reliability in the face of the unknown, and both challenges can be alleviated through principled epistemic uncertainty estimation in the predictions of MCTS. We present two main contributions: First, we develop methodology to propagate epistemic uncertainty in MCTS, enabling agents to estimate the epistemic uncertainty in their predictions. Second, we utilize the propagated uncertainty for a novel deep exploration algorithm by explicitly planning to explore. We incorporate our approach into variations of MCTS-based MBRL approaches with learned and provided dynamics models, and empirically show deep exploration through successful epistemic uncertainty estimation achieved by our approach. We compare to a non-planning-based deep-exploration baseline, and demonstrate that planning with epistemic MCTS significantly outperforms non-planning based exploration in the investigated deep exploration benchmark.

arxiv情報

著者 Yaniv Oren,Matthijs T. J. Spaan,Wendelin Böhmer
発行日 2023-08-30 10:27:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク