Conservative State Value Estimation for Offline Reinforcement Learning

要約

オフラインの強化学習は、データセットと現在学習されているポリシーとの間の分布ドリフトによる値の過大評価という重大な課題に直面しており、実際には学習の失敗につながります。
一般的なアプローチは、ベルマン反復で報酬または価値の推定にペナルティ項を組み込むことです。
一方、分布外 (OOD) の状態とアクションに対する外挿を避けるために、既存の方法は保守的な Q 関数の推定に焦点を当てています。
この論文では、保守的な状態値推定 (CSVE) を提案します。これは、OOD 状態に直接ペナルティを課すことによって保守的な V 関数を学習する新しいアプローチです。
以前の作業と比較して、CSVE は保守的な値の保証により、より効果的なデータ内ポリシーの最適化を可能にします。
さらに、CSVE を適用し、批評家がデータセットの周りの状態をさらにサンプリングしてペナルティを課すことによって保守的な値の推定を行う実用的なアクター クリティック アルゴリズムを開発します。
ポリシー。
D4RL の古典的な連続制御タスクで評価し、私たちの方法が保守的な Q 関数学習方法よりも優れたパフォーマンスを発揮し、最近の SOTA 方法の中で強力な競争力があることを示します。

要約(オリジナル)

Offline reinforcement learning faces a significant challenge of value over-estimation due to the distributional drift between the dataset and the current learned policy, leading to learning failure in practice. The common approach is to incorporate a penalty term to reward or value estimation in the Bellman iterations. Meanwhile, to avoid extrapolation on out-of-distribution (OOD) states and actions, existing methods focus on conservative Q-function estimation. In this paper, we propose Conservative State Value Estimation (CSVE), a new approach that learns conservative V-function via directly imposing penalty on OOD states. Compared to prior work, CSVE allows more effective in-data policy optimization with conservative value guarantees. Further, we apply CSVE and develop a practical actor-critic algorithm in which the critic does the conservative value estimation by additionally sampling and penalizing the states \emph{around} the dataset, and the actor applies advantage weighted updates extended with state exploration to improve the policy. We evaluate in classic continual control tasks of D4RL, showing that our method performs better than the conservative Q-function learning methods and is strongly competitive among recent SOTA methods.

arxiv情報

著者 Liting Chen,Jie Yan,Zhengdao Shao,Lu Wang,Qingwei Lin,Dongmei Zhang
発行日 2023-02-14 08:13:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク