要約
ベイジアン強化学習(BRL)は、ベイジアン統計と強化学習からの原則をマージして、不確実な環境で最適な決定を下す方法です。
モデルベースのRLメソッドとして、2つの重要なコンポーネントがあります。(1)データ生成プロセス(DGP)のモデルの事後分布と(2)学習後のポリシー学習。
マルコフ依存を想定して、深い生成モデルを通じて未知の環境のダイナミクスをモデル化することを提案します。
これらのモデルの尤度関数がない場合、一般化された予測シーケンシャル(または初期的な)スコアリングルール(SR)後部を学習してトレーニングします。
シーケンシャルモンテカルロ(SMC)サンプラーを使用して、この一般化されたベイジアン後部分布からサンプルを描画しました。
併せて、ニューラルネットワークの高次元パラメーター空間でスケーラビリティを実現するために、SMC内のグラデーションベースのマルコフカーネルを使用します。
事後前のスコアリングルールの使用を正当化するために、バーンスタインボンミーゼスタイプの定理を証明します。
ポリシー学習のために、予想されるトンプソンサンプリング(ETS)を提案して、事後分布に関する期待値関数を最大化することにより、最適なポリシーを学習します。
これにより、従来のトンプソンサンプリング(TS)とその拡張が改善され、後部分布から描かれたサンプルが1つだけ使用されます。
この改善は、理論的にも、離散アクション空間を想定してシミュレーション研究を使用して研究されています。
最後に、理論的保証なしで継続的なアクションスペースで挑戦的な問題のためのセットアップを拡張しました。
要約(オリジナル)
Bayesian reinforcement learning (BRL) is a method that merges principles from Bayesian statistics and reinforcement learning to make optimal decisions in uncertain environments. As a model-based RL method, it has two key components: (1) inferring the posterior distribution of the model for the data-generating process (DGP) and (2) policy learning using the learned posterior. We propose to model the dynamics of the unknown environment through deep generative models, assuming Markov dependence. In the absence of likelihood functions for these models, we train them by learning a generalized predictive-sequential (or prequential) scoring rule (SR) posterior. We used sequential Monte Carlo (SMC) samplers to draw samples from this generalized Bayesian posterior distribution. In conjunction, to achieve scalability in the high-dimensional parameter space of the neural networks, we use the gradient-based Markov kernels within SMC. To justify the use of the prequential scoring rule posterior, we prove a Bernstein-von Mises-type theorem. For policy learning, we propose expected Thompson sampling (ETS) to learn the optimal policy by maximising the expected value function with respect to the posterior distribution. This improves upon traditional Thompson sampling (TS) and its extensions, which utilize only one sample drawn from the posterior distribution. This improvement is studied both theoretically and using simulation studies, assuming a discrete action space. Finally, we successfully extended our setup for a challenging problem with a continuous action space without theoretical guarantees.
arxiv情報
著者 | Shreya Sinha Roy,Richard G. Everitt,Christian P. Robert,Ritabrata Dutta |
発行日 | 2025-06-02 11:22:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google