要約
モデルベースの強化学習で期待される累積報酬に対する不確実性を定量化する問題を検討します。
特に、MDP の分布によって引き起こされる値の分散の特徴付けに焦点を当てています。
以前の研究では、いわゆる不確実性ベルマン方程式を解くことによって、値に対する事後分散の上限が設定されていましたが、過大な近似は非効率的な探索につながる可能性があります。
解が値に対する真の事後分散に収束し、以前の研究のギャップを明示的に特徴付ける新しい不確実性ベルマン方程式を提案します。
さらに、当社の不確実性定量化手法は、一般的な探索戦略に簡単に統合でき、標準の深層強化学習アーキテクチャを使用することで、表形式の設定を超えて自然にスケーリングします。
表形式および連続制御設定の両方での困難な探査タスクでの実験では、より明確な不確実性推定がサンプル効率を向上させることが示されています。
要約(オリジナル)
We consider the problem of quantifying uncertainty over expected cumulative rewards in model-based reinforcement learning. In particular, we focus on characterizing the variance over values induced by a distribution over MDPs. Previous work upper bounds the posterior variance over values by solving a so-called uncertainty Bellman equation, but the over-approximation may result in inefficient exploration. We propose a new uncertainty Bellman equation whose solution converges to the true posterior variance over values and explicitly characterizes the gap in previous work. Moreover, our uncertainty quantification technique is easily integrated into common exploration strategies and scales naturally beyond the tabular setting by using standard deep reinforcement learning architectures. Experiments in difficult exploration tasks, both in tabular and continuous control settings, show that our sharper uncertainty estimates improve sample-efficiency.
arxiv情報
著者 | Carlos E. Luis,Alessandro G. Bottero,Julia Vinogradska,Felix Berkenkamp,Jan Peters |
発行日 | 2023-02-24 09:18:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google