Iteratively Refined Behavior Regularization for Offline Reinforcement Learning

要約

オフライン強化学習 (RL) の基本的な課題の 1 つは、データ分散に対する堅牢性を確保することです。
データが最適に近いポリシーに由来するかどうかに関係なく、アルゴリズムは、オフライン データの固有の分布とシームレスに調整する効果的な制御ポリシーを学習する能力を実証する必要があると予想されます。
残念ながら、シンプルだが効果的なオフライン RL アルゴリズムである動作正則化は、この点で苦労する傾向があります。
この論文では、保守的なポリシーの反復に基づいて動作の規則化を大幅に強化する新しいアルゴリズムを提案します。
私たちの重要な観察は、動作の正則化に使用される参照ポリシーを反復的に改良することで、保守的なポリシーの更新により徐々に改善が保証され、同時にサンプル外のアクションのクエリを暗黙的に回避して壊滅的な学習の失敗を防ぐということです。
表形式の設定では、このアルゴリズムがオフライン データセットによってカバーされる最適なポリシー (一般にサンプル内最適ポリシーと呼ばれます) を学習できることを証明します。
次に、関数近似が適用される場合のアルゴリズムの実装の詳細をいくつか検討します。
結果として得られるアルゴリズムは実装が簡単で、既存のメソッドに数行のコードを変更するだけで済みます。
D4RL ベンチマークの実験結果は、私たちの方法がほとんどのタスクで以前の最先端のベースラインを上回っていることを示し、動作の正則化よりも優れていることを明確に示しています。

要約(オリジナル)

One of the fundamental challenges for offline reinforcement learning (RL) is ensuring robustness to data distribution. Whether the data originates from a near-optimal policy or not, we anticipate that an algorithm should demonstrate its ability to learn an effective control policy that seamlessly aligns with the inherent distribution of offline data. Unfortunately, behavior regularization, a simple yet effective offline RL algorithm, tends to struggle in this regard. In this paper, we propose a new algorithm that substantially enhances behavior-regularization based on conservative policy iteration. Our key observation is that by iteratively refining the reference policy used for behavior regularization, conservative policy update guarantees gradually improvement, while also implicitly avoiding querying out-of-sample actions to prevent catastrophic learning failures. We prove that in the tabular setting this algorithm is capable of learning the optimal policy covered by the offline dataset, commonly referred to as the in-sample optimal policy. We then explore several implementation details of the algorithm when function approximations are applied. The resulting algorithm is easy to implement, requiring only a few lines of code modification to existing methods. Experimental results on the D4RL benchmark indicate that our method outperforms previous state-of-the-art baselines in most tasks, clearly demonstrate its superiority over behavior regularization.

arxiv情報

著者 Xiaohan Hu,Yi Ma,Chenjun Xiao,Yan Zheng,Jianye Hao
発行日 2023-10-17 16:25:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク