要約
オフライン強化学習では、分布外 (OOD) という課題が顕著です。
これに対処するために、既存の方法では、ポリシーの正則化を通じて学習されたポリシーを制約することがよくあります。
しかし、これらの方法はしばしば不必要な保守性の問題に悩まされ、政策の改善を妨げます。
これは、オフライン データセットを制約として生成する動作ポリシーのすべてのアクションが無差別に使用されるために発生します。
この問題は、データセットの品質が最適ではない場合に特に顕著になります。
そこで、我々は、学習されたポリシーをガイドするためにVAEと組み合わせた拡張動作ポリシーから有利なアクションを取得する、Adaptive Advantage-guided Policy Regularization (A2PR)を提案します。
A2PR は、OOD アクションの保守性を効果的に維持しながら、データセットに存在するものとは異なる有利なアクションを選択できます。
これは、VAE の能力を利用して、データ ポイントの分布に一致するサンプルを生成することによって実現されます。
行動方針の改善が保証されることを理論的に証明します。
さらに、パフォーマンスのギャップを制限することで、価値の過大評価を効果的に軽減します。
経験的に、D4RL ベンチマークで一連の実験を実施し、A2PR が最先端のパフォーマンスを実証しました。
さらに、追加の準最適混合データセットの実験結果から、A2PR が優れたパフォーマンスを示すことが明らかになりました。
コードは https://github.com/ltlhuuu/A2PR で入手できます。
要約(オリジナル)
In offline reinforcement learning, the challenge of out-of-distribution (OOD) is pronounced. To address this, existing methods often constrain the learned policy through policy regularization. However, these methods often suffer from the issue of unnecessary conservativeness, hampering policy improvement. This occurs due to the indiscriminate use of all actions from the behavior policy that generates the offline dataset as constraints. The problem becomes particularly noticeable when the quality of the dataset is suboptimal. Thus, we propose Adaptive Advantage-guided Policy Regularization (A2PR), obtaining high-advantage actions from an augmented behavior policy combined with VAE to guide the learned policy. A2PR can select high-advantage actions that differ from those present in the dataset, while still effectively maintaining conservatism from OOD actions. This is achieved by harnessing the VAE capacity to generate samples matching the distribution of the data points. We theoretically prove that the improvement of the behavior policy is guaranteed. Besides, it effectively mitigates value overestimation with a bounded performance gap. Empirically, we conduct a series of experiments on the D4RL benchmark, where A2PR demonstrates state-of-the-art performance. Furthermore, experimental results on additional suboptimal mixed datasets reveal that A2PR exhibits superior performance. Code is available at https://github.com/ltlhuuu/A2PR.
arxiv情報
著者 | Tenglong Liu,Yang Li,Yixing Lan,Hao Gao,Wei Pan,Xin Xu |
発行日 | 2024-07-15 10:55:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google