要約
オフライン強化学習 (RL) は、環境とのさらなる対話を必要とせずに、事前に収集されたデータセットからポリシーを学習するための有望な方向性を提供します。
しかし、既存の手法では、特に報酬がまばらな設定やデータが少ない設定において、分布外 (OOD) 外挿エラーを処理するのが困難です。
この論文では、保守的密度推定 (CDE) と呼ばれる新しいトレーニング アルゴリズムを提案します。このアルゴリズムは、状態アクション占有定常分布に明示的に制約を課すことでこの課題に対処します。
CDE は、限界重要度サンプリングにおけるサポートの不一致問題に対処することで、定常分布補正法などの既存のアプローチの制限を克服します。
私たちの手法は、D4RL ベンチマークで最先端のパフォーマンスを達成します。
特に、CDE は、報酬がまばらであるかデータが不十分な困難なタスクにおいて、一貫してベースラインを上回っており、オフライン RL における外挿誤差問題への対処における私たちのアプローチの利点を示しています。
要約(オリジナル)
Offline reinforcement learning (RL) offers a promising direction for learning policies from pre-collected datasets without requiring further interactions with the environment. However, existing methods struggle to handle out-of-distribution (OOD) extrapolation errors, especially in sparse reward or scarce data settings. In this paper, we propose a novel training algorithm called Conservative Density Estimation (CDE), which addresses this challenge by explicitly imposing constraints on the state-action occupancy stationary distribution. CDE overcomes the limitations of existing approaches, such as the stationary distribution correction method, by addressing the support mismatch issue in marginal importance sampling. Our method achieves state-of-the-art performance on the D4RL benchmark. Notably, CDE consistently outperforms baselines in challenging tasks with sparse rewards or insufficient data, demonstrating the advantages of our approach in addressing the extrapolation error problem in offline RL.
arxiv情報
著者 | Zhepeng Cen,Zuxin Liu,Zitong Wang,Yihang Yao,Henry Lam,Ding Zhao |
発行日 | 2024-03-11 14:43:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google