Improving and Benchmarking Offline Reinforcement Learning Algorithms

要約

近年、オフライン強化学習(RL)はさまざまなアルゴリズムやデータセットの登場により目覚ましい発展を遂げています。
ただし、これらの方法は通常、アルゴリズムの進歩に焦点を当てており、多くの低レベル実装の選択が最終的なパフォーマンスに大きな影響を与えたり、さらにはそれを左右したりすることを無視しています。
その結果、これらの選択肢が文献で十分に議論されず、整合性が取れていないため、オフライン RL の進歩に帰することが困難になります。
さらに、あるデータセット (D4RL など) に焦点を当てた論文は、別のデータセット (RL Unplugged など) で提案されたアルゴリズムを無視することが多く、アルゴリズム間で孤立が生じ、全体の進歩が遅くなる可能性があります。
したがって、この作業は、低レベルの選択とデータセットによって生じるギャップを埋めることを目的としています。
この目的を達成するために、3 つの代表的なアルゴリズム (CQL、CRR、IQL) を使用して 20 の実装の選択肢を実証的に調査し、実装を選択するためのガイドブックを提示します。
ガイドブックに従って、D4RL で新しい最先端を実現する 2 つのバリアント CRR+ と CQL+ を見つけます。
さらに、統一されたトレーニングと評価のフレームワークの下で、データセット全体で 8 つの一般的なオフライン RL アルゴリズムのベンチマークを行います。
この発見は刺激的です。学習パラダイムの成功はデータの分布に大きく依存しており、これまでの結論の一部は使用したデータセットによって偏っています。
私たちのコードは https://github.com/sail-sg/offbench で入手できます。

要約(オリジナル)

Recently, Offline Reinforcement Learning (RL) has achieved remarkable progress with the emergence of various algorithms and datasets. However, these methods usually focus on algorithmic advancements, ignoring that many low-level implementation choices considerably influence or even drive the final performance. As a result, it becomes hard to attribute the progress in Offline RL as these choices are not sufficiently discussed and aligned in the literature. In addition, papers focusing on a dataset (e.g., D4RL) often ignore algorithms proposed on another dataset (e.g., RL Unplugged), causing isolation among the algorithms, which might slow down the overall progress. Therefore, this work aims to bridge the gaps caused by low-level choices and datasets. To this end, we empirically investigate 20 implementation choices using three representative algorithms (i.e., CQL, CRR, and IQL) and present a guidebook for choosing implementations. Following the guidebook, we find two variants CRR+ and CQL+ , achieving new state-of-the-art on D4RL. Moreover, we benchmark eight popular offline RL algorithms across datasets under unified training and evaluation framework. The findings are inspiring: the success of a learning paradigm severely depends on the data distribution, and some previous conclusions are biased by the dataset used. Our code is available at https://github.com/sail-sg/offbench.

arxiv情報

著者 Bingyi Kang,Xiao Ma,Yirui Wang,Yang Yue,Shuicheng Yan
発行日 2023-06-01 17:58:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク