Conservative Bayesian Model-Based Value Expansion for Offline Policy Optimization

要約

オフライン強化学習(RL)は、ある行動方針に従って収集された固定バッチのデータから、パフォーマンスの高い方針を学習する問題に取り組む。モデルベースアプローチは、環境のモデルを学習することで、記録されたデータセットからより多くの学習シグナルを抽出できるため、オフライン環境において特に魅力的です。しかし、既存のモデルベースアプローチの性能は、学習したモデルの推定誤差が重なるため、モデルフリーの対応するアプローチに及ばない。この観察に基づき、我々は、モデルベースの手法にとって、いつモデルを信頼し、いつモデルなしの推定値に頼るのか、そして、どのように両方を保守的に扱うのかを理解することが重要であることを主張する。この目的のために、我々は、オフライン政策最適化(CBOP)のための保守的ベイズモデルベース値拡張と呼ばれるエレガントでシンプルな方法論を導き出し、政策評価ステップでモデルなし推定とモデルベース推定をそれらの認識的不確実性に応じてトレードオフし、ベイズ事後値推定の下界を取ることによって保守性を促進させる。標準的なD4RL連続制御タスクにおいて、本手法は従来のモデルベースアプローチを大幅に上回ることがわかった:例えば、MOPOは116.4$%、MOReLは23.2$%、COMBOは23.7$%の差である。さらに、CBOPは18$のベンチマークデータセットのうち11$で最先端の性能を達成し、残りのデータセットでは同程度の性能を発揮しています。

要約(オリジナル)

Offline reinforcement learning (RL) addresses the problem of learning a performant policy from a fixed batch of data collected by following some behavior policy. Model-based approaches are particularly appealing in the offline setting since they can extract more learning signals from the logged dataset by learning a model of the environment. However, the performance of existing model-based approaches falls short of model-free counterparts, due to the compounding of estimation errors in the learned model. Driven by this observation, we argue that it is critical for a model-based method to understand when to trust the model and when to rely on model-free estimates, and how to act conservatively w.r.t. both. To this end, we derive an elegant and simple methodology called conservative Bayesian model-based value expansion for offline policy optimization (CBOP), that trades off model-free and model-based estimates during the policy evaluation step according to their epistemic uncertainties, and facilitates conservatism by taking a lower bound on the Bayesian posterior value estimate. On the standard D4RL continuous control tasks, we find that our method significantly outperforms previous model-based approaches: e.g., MOPO by $116.4$%, MOReL by $23.2$% and COMBO by $23.7$%. Further, CBOP achieves state-of-the-art performance on $11$ out of $18$ benchmark datasets while doing on par on the remaining datasets.

arxiv情報

著者 Jihwan Jeong,Xiaoyu Wang,Michael Gimelfarb,Hyunwoo Kim,Baher Abdulhai,Scott Sanner
発行日 2023-03-03 16:36:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク