Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning

要約

オフライン強化学習では、OOD(out-of-distribution)という課題が顕著である。この問題に対処するため、既存の手法では、学習されたポリシーをポリシーの正則化によって制約することが多い。しかし、これらの手法はしばしば不必要な保守性の問題に悩まされ、ポリシーの改善を妨げる。これは、オフラインデータセットを生成する行動ポリシーの全ての行動を制約として無差別に使用することに起因する。この問題は、データセットの品質が最適でない場合に特に顕著になる。そこで我々は、学習されたポリシーをガイドするためにVAEと組み合わされた拡張された行動ポリシーから高アドバンテージ行動を得る、適応的アドバンテージガイドポリシー正則化(A2PR)を提案する。A2PRは、OOD行動からの保守性を効果的に維持しながら、データセットに存在する行動とは異なる高有利行動を選択することができる。これは、データ点の分布に一致するサンプルを生成するVAE能力を利用することで達成される。我々は、行動ポリシーの改善が保証されることを理論的に証明する。さらに、性能のギャップが制限された状態で、値の過大評価を効果的に緩和する。経験的には、D4RLベンチマークで一連の実験を行い、A2PRが最先端の性能を示した。さらに、追加の最適でない混合データセットでの実験結果から、A2PRが優れた性能を示すことが明らかになった。コードはhttps://github.com/ltlhuuu/A2PR。

要約(オリジナル)

In offline reinforcement learning, the challenge of out-of-distribution (OOD) is pronounced. To address this, existing methods often constrain the learned policy through policy regularization. However, these methods often suffer from the issue of unnecessary conservativeness, hampering policy improvement. This occurs due to the indiscriminate use of all actions from the behavior policy that generates the offline dataset as constraints. The problem becomes particularly noticeable when the quality of the dataset is suboptimal. Thus, we propose Adaptive Advantage-guided Policy Regularization (A2PR), obtaining high-advantage actions from an augmented behavior policy combined with VAE to guide the learned policy. A2PR can select high-advantage actions that differ from those present in the dataset, while still effectively maintaining conservatism from OOD actions. This is achieved by harnessing the VAE capacity to generate samples matching the distribution of the data points. We theoretically prove that the improvement of the behavior policy is guaranteed. Besides, it effectively mitigates value overestimation with a bounded performance gap. Empirically, we conduct a series of experiments on the D4RL benchmark, where A2PR demonstrates state-of-the-art performance. Furthermore, experimental results on additional suboptimal mixed datasets reveal that A2PR exhibits superior performance. Code is available at https://github.com/ltlhuuu/A2PR.

arxiv情報

著者 Tenglong Liu,Yang Li,Yixing Lan,Hao Gao,Wei Pan,Xin Xu
発行日 2024-06-01 13:50:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク