ROER: Regularized Optimal Experience Replay

要約

経験再生はオンライン強化学習(RL)の成功の鍵となる要素である。優先経験再生(PER)は経験値を時間差(TD)誤差で重み付けし、経験値を経験的に向上させる。しかし、TD誤差を利用する動機付けを探求した研究はほとんどない。本研究では、TD誤差に基づく再重み付けに関する別の視点を提供する。我々は経験の優先順位付けと占有率の最適化との関連を示す。f-$ダイバージェンス正則化を用いた正則化RL目的語を用い、その双対形式を採用することで、TDエラーベースの占有率を用いて、再生バッファ内のオフポリシーデータの分布をオンポリシー最適分布にシフトすることにより、目的語の最適解が得られることを示す。我々の導出の結果、TDエラー優先順位付けの新しいパイプラインが得られる。特にKLダイバージェンスを正則化器として探索し、正則化最適経験再生(ROER)という新しい形式の優先順位付けスキームを得る。連続制御MuJoCoとDM制御ベンチマークタスクにおいて、提案する優先順位付けスキームをソフトアクタークリティック(SAC)アルゴリズムで評価したところ、提案スキームは11タスク中6タスクでベースラインを上回った。さらに、事前学習を用いることで、ROERはベースラインが失敗する難しいAntmaze環境において顕著な改善を達成し、オフラインからオンラインへの微調整への適用可能性を示した。コードは୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)

要約(オリジナル)

Experience replay serves as a key component in the success of online reinforcement learning (RL). Prioritized experience replay (PER) reweights experiences by the temporal difference (TD) error empirically enhancing the performance. However, few works have explored the motivation of using TD error. In this work, we provide an alternative perspective on TD-error-based reweighting. We show the connections between the experience prioritization and occupancy optimization. By using a regularized RL objective with $f-$divergence regularizer and employing its dual form, we show that an optimal solution to the objective is obtained by shifting the distribution of off-policy data in the replay buffer towards the on-policy optimal distribution using TD-error-based occupancy ratios. Our derivation results in a new pipeline of TD error prioritization. We specifically explore the KL divergence as the regularizer and obtain a new form of prioritization scheme, the regularized optimal experience replay (ROER). We evaluate the proposed prioritization scheme with the Soft Actor-Critic (SAC) algorithm in continuous control MuJoCo and DM Control benchmark tasks where our proposed scheme outperforms baselines in 6 out of 11 tasks while the results of the rest match with or do not deviate far from the baselines. Further, using pretraining, ROER achieves noticeable improvement on difficult Antmaze environment where baselines fail, showing applicability to offline-to-online fine-tuning. Code is available at \url{https://github.com/XavierChanglingLi/Regularized-Optimal-Experience-Replay}.

arxiv情報

著者 Changling Li,Zhang-Wei Hong,Pulkit Agrawal,Divyansh Garg,Joni Pajarinen
発行日 2024-07-04 15:14:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク