要約
モデルベースの強化学習における期待される累積報酬に対する不確実性を定量化する問題を検討します。
特に、MDP にわたる分布によって引き起こされる値にわたる分散の特徴付けに焦点を当てます。
以前の研究では、いわゆる不確実性ベルマン方程式 (UBE) を解くことによって値の事後分散の上限を設定していましたが、過剰近似により非効率な探索が生じる可能性があります。
我々は、その解が値に対する真の事後分散に収束し、表形式の探索問題におけるリグレスの低減につながる新しい UBE を提案します。
私たちは、表の問題を超えて UBE 理論を適用するための課題を特定し、適切な近似を提案します。
この近似に基づいて、最小限の変更でリスク追求型またはリスク回避型のポリシー最適化に適用できる汎用ポリシー最適化アルゴリズムである Q-Uncertainty Soft Actor-Critic (QU-SAC) を導入します。
オンラインとオフラインの両方の RL での実験では、他の不確実性推定手法と比較してパフォーマンスが向上していることが実証されています。
要約(オリジナル)
We consider the problem of quantifying uncertainty over expected cumulative rewards in model-based reinforcement learning. In particular, we focus on characterizing the variance over values induced by a distribution over MDPs. Previous work upper bounds the posterior variance over values by solving a so-called uncertainty Bellman equation (UBE), but the over-approximation may result in inefficient exploration. We propose a new UBE whose solution converges to the true posterior variance over values and leads to lower regret in tabular exploration problems. We identify challenges to apply the UBE theory beyond tabular problems and propose a suitable approximation. Based on this approximation, we introduce a general-purpose policy optimization algorithm, Q-Uncertainty Soft Actor-Critic (QU-SAC), that can be applied for either risk-seeking or risk-averse policy optimization with minimal changes. Experiments in both online and offline RL demonstrate improved performance compared to other uncertainty estimation methods.
arxiv情報
著者 | Carlos E. Luis,Alessandro G. Bottero,Julia Vinogradska,Felix Berkenkamp,Jan Peters |
発行日 | 2023-12-07 15:55:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google