CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning

要約

分布の変化はオフライン強化学習における大きな障害であり、まれなアクションや目に見えないアクションを過大評価しないように、学習されたポリシーと行動ポリシーの間の差異を最小限に抑える必要があります。
これまでの保守的なオフライン RL アルゴリズムは、優れた配布内ポリシーの学習には成功したにもかかわらず、目に見えないアクションを一般化するのに苦労していました。
対照的に、事前トレーニングされたオフライン RL アルゴリズムから生成されたデータセット密度の勾配フィールドを使用して、元のアクションを調整することを提案します。
保守主義の制約をポリシーから切り離すことで、広範なオフライン RL アルゴリズムに利益をもたらすことができます。
結果として、我々は、データセット密度そのものではなく、データセット密度の勾配をモデル化するためにノイズ除去スコアベースのモデルを利用する保守的なノイズ除去スコアベースのアルゴリズム (CDSA) を提案し、より正確かつ効率的な調整方法を容易にします。
決定的かつ継続的な MDP 環境で事前トレーニングされたポリシーによって生成されるアクション。
実験では、私たちのアプローチが D4RL データセットのベースライン アルゴリズムのパフォーマンスを大幅に向上させることを示し、さまざまなタスクでのさまざまな事前トレーニング済みオフライン RL ポリシーにわたるモデルの一般化可能性とプラグ アンド プレイ機能を実証しました。
また、エージェントがさまざまなタスクにわたって効果的に一般化する能力を示しながら、私たちの方法を採用した後、より大きなリスク回避を示すことも検証します。

要約(オリジナル)

Distribution shift is a major obstacle in offline reinforcement learning, which necessitates minimizing the discrepancy between the learned policy and the behavior policy to avoid overestimating rare or unseen actions. Previous conservative offline RL algorithms struggle to generalize to unseen actions, despite their success in learning good in-distribution policy. In contrast, we propose to use the gradient fields of the dataset density generated from a pre-trained offline RL algorithm to adjust the original actions. We decouple the conservatism constraints from the policy, thus can benefit wide offline RL algorithms. As a consequence, we propose the Conservative Denoising Score-based Algorithm (CDSA) which utilizes the denoising score-based model to model the gradient of the dataset density, rather than the dataset density itself, and facilitates a more accurate and efficient method to adjust the action generated by the pre-trained policy in a deterministic and continuous MDP environment. In experiments, we show that our approach significantly improves the performance of baseline algorithms in D4RL datasets, and demonstrate the generalizability and plug-and-play capability of our model across different pre-trained offline RL policy in different tasks. We also validate that the agent exhibits greater risk aversion after employing our method while showcasing its ability to generalize effectively across diverse tasks.

arxiv情報

著者 Zeyuan Liu,Kai Yang,Xiu Li
発行日 2024-06-11 17:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク