Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo

要約

強化学習 (RL) のためのトンプソン サンプリングに基づく、スケーラブルで効果的な探索戦略を提案します。
既存のトンプソン サンプリング アルゴリズムの主な欠点の 1 つは、事後分布のガウス近似を実行する必要があることですが、これはほとんどの実際的な設定では適切な代用とはなりません。
代わりに、マルコフ連鎖モンテカルロ (MCMC) 法の効率的なタイプであるランジュバン モンテカルロを使用して、事後分布から Q 関数を直接サンプリングします。
私たちの方法では、Q 関数の正確な事後分布を学習するためにノイズを含む勾配降下法更新を実行するだけで済みます。これにより、私たちのアプローチをディープ RL に簡単に展開できるようになります。
提案された方法に対して厳密な理論分析を提供し、線形マルコフ決定プロセス (線形 MDP) 設定では $\tilde{O}(d^{3/2}H^{5
/2}\sqrt{T})$、ここで、$d$ は機能マッピングの次元、$H$ は計画期間、$T$ は合計ステップ数です。
Adam オプティマイザーを使用して勾配更新を実行することで、このアプローチをディープ RL に適用します。
私たちのアプローチは、Atari57 スイートのいくつかの困難な探索タスクにおいて、最先端の深層 RL アルゴリズムと比較して、より良い、または同等の結果を達成します。

要約(オリジナル)

We present a scalable and effective exploration strategy based on Thompson sampling for reinforcement learning (RL). One of the key shortcomings of existing Thompson sampling algorithms is the need to perform a Gaussian approximation of the posterior distribution, which is not a good surrogate in most practical settings. We instead directly sample the Q function from its posterior distribution, by using Langevin Monte Carlo, an efficient type of Markov Chain Monte Carlo (MCMC) method. Our method only needs to perform noisy gradient descent updates to learn the exact posterior distribution of the Q function, which makes our approach easy to deploy in deep RL. We provide a rigorous theoretical analysis for the proposed method and demonstrate that, in the linear Markov decision process (linear MDP) setting, it has a regret bound of $\tilde{O}(d^{3/2}H^{5/2}\sqrt{T})$, where $d$ is the dimension of the feature mapping, $H$ is the planning horizon, and $T$ is the total number of steps. We apply this approach to deep RL, by using Adam optimizer to perform gradient updates. Our approach achieves better or similar results compared with state-of-the-art deep RL algorithms on several challenging exploration tasks from the Atari57 suite.

arxiv情報

著者 Haque Ishfaq,Qingfeng Lan,Pan Xu,A. Rupam Mahmood,Doina Precup,Anima Anandkumar,Kamyar Azizzadenesheli
発行日 2023-05-29 17:11:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク