Probabilistic Inference in Reinforcement Learning Done Right

要約

強化学習 (RL) における一般的な視点は、問題をマルコフ決定プロセス (MDP) のグラフィカル モデルに対する確率的推論として投げかけます。
研究の中心的な目的は、最適なポリシーの下で各状態と行動のペアが訪問される確率です。
この量を近似するための以前のアプローチは、恣意的に貧弱である可能性があり、真の統計的推論を実装しないアルゴリズムにつながり、その結果、難しい問題でうまく機能しません。
この研究では、状態アクションの最適性の事後確率の厳密なベイズ処理を行い、それが MDP をどのように流れるかを明らかにします。
私たちは最初に、この量を実際に、後悔によって測定されるように、効率的に探索する政策を生成するために使用できることを明らかにします。
残念ながら、これを計算することは困難であるため、扱いやすい凸最適化問題を生み出す新しい変分ベイズ近似を導出し、結果として得られるポリシーも効率的に探索できることを確立します。
私たちはこのアプローチを VAPOR と呼び、それがトンプソン サンプリング、K 学習、最大エントロピー探索と強いつながりがあることを示します。
最後に、VAPOR のディープ RL バージョンのパフォーマンス上の利点を実証するいくつかの実験で終わります。

要約(オリジナル)

A popular perspective in Reinforcement learning (RL) casts the problem as probabilistic inference on a graphical model of the Markov decision process (MDP). The core object of study is the probability of each state-action pair being visited under the optimal policy. Previous approaches to approximate this quantity can be arbitrarily poor, leading to algorithms that do not implement genuine statistical inference and consequently do not perform well in challenging problems. In this work, we undertake a rigorous Bayesian treatment of the posterior probability of state-action optimality and clarify how it flows through the MDP. We first reveal that this quantity can indeed be used to generate a policy that explores efficiently, as measured by regret. Unfortunately, computing it is intractable, so we derive a new variational Bayesian approximation yielding a tractable convex optimization problem and establish that the resulting policy also explores efficiently. We call our approach VAPOR and show that it has strong connections to Thompson sampling, K-learning, and maximum entropy exploration. We conclude with some experiments demonstrating the performance advantage of a deep RL version of VAPOR.

arxiv情報

著者 Jean Tarbouriech,Tor Lattimore,Brendan O’Donoghue
発行日 2023-11-22 10:23:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク