Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning


オフライン強化学習では、分布外 (OOD) という課題が顕著です。
これは、オフライン データセットを制約として生成する動作ポリシーのすべてのアクションが無差別に使用されるために発生します。
そこで、我々は、学習されたポリシーをガイドするためにVAEと組み合わせた拡張動作ポリシーから有利なアクションを取得する、Adaptive Advantage-guided Policy Regularization (A2PR)を提案します。
A2PR は、OOD アクションの保守性を効果的に維持しながら、データセットに存在するものとは異なる有利なアクションを選択できます。
これは、VAE の能力を利用して、データ ポイントの分布に一致するサンプルを生成することによって実現されます。
経験的に、D4RL ベンチマークで一連の実験を実施し、A2PR が最先端のパフォーマンスを実証しました。
さらに、追加の準最適混合データセットの実験結果から、A2PR が優れたパフォーマンスを示すことが明らかになりました。
コードは で入手できます。


In offline reinforcement learning, the challenge of out-of-distribution (OOD) is pronounced. To address this, existing methods often constrain the learned policy through policy regularization. However, these methods often suffer from the issue of unnecessary conservativeness, hampering policy improvement. This occurs due to the indiscriminate use of all actions from the behavior policy that generates the offline dataset as constraints. The problem becomes particularly noticeable when the quality of the dataset is suboptimal. Thus, we propose Adaptive Advantage-guided Policy Regularization (A2PR), obtaining high-advantage actions from an augmented behavior policy combined with VAE to guide the learned policy. A2PR can select high-advantage actions that differ from those present in the dataset, while still effectively maintaining conservatism from OOD actions. This is achieved by harnessing the VAE capacity to generate samples matching the distribution of the data points. We theoretically prove that the improvement of the behavior policy is guaranteed. Besides, it effectively mitigates value overestimation with a bounded performance gap. Empirically, we conduct a series of experiments on the D4RL benchmark, where A2PR demonstrates state-of-the-art performance. Furthermore, experimental results on additional suboptimal mixed datasets reveal that A2PR exhibits superior performance. Code is available at


著者 Tenglong Liu,Yang Li,Yixing Lan,Hao Gao,Wei Pan,Xin Xu
発行日 2024-07-15 10:55:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク