Pre-training with Synthetic Data Helps Offline Reinforcement Learning

要約

最近、オフライン深層強化学習 (DRL) の場合、大規模な言語コーパスを使用して Decision Transformer を事前トレーニングすると、下流のパフォーマンスが向上することが示されました (Reid et al., 2022)。
当然の疑問は、このパフォーマンスの向上は言語の事前トレーニングによってのみ達成できるのか、それとも言語を含まないより単純な事前トレーニング スキームによって達成できるのかということです。
この論文では、最初に、言語はパフォーマンスの向上に必須ではなく、実際に、少数の更新のための合成 IID データを使用した事前トレーニングが、大規模な言語コーパスを使用した事前トレーニングによるパフォーマンスの向上に匹敵する可能性があることを示します。
さらに、ワンステップマルコフ連鎖によって生成されたデータを使用した事前トレーニングにより、パフォーマンスをさらに向上させることができます。
これらの実験結果に触発されて、次に、一般的なオフライン DRL アルゴリズムである保守的 Q ラーニング (CQL) の事前トレーニングを検討します。これは Q ラーニング ベースであり、通常は多層パーセプトロン (MLP) バックボーンを採用します。
驚くべきことに、少数の更新に対する単純な合成データを使用した事前トレーニングでも CQL を向上させることができ、D4RL Gym の移動データセットのパフォーマンスを一貫して向上させることができます。
この論文の結果は、オフライン DRL の事前トレーニングの重要性を示すだけでなく、非常に簡単なメカニズムで事前トレーニング データを合成および生成できることも示しています。

要約(オリジナル)

Recently, it has been shown that for offline deep reinforcement learning (DRL), pre-training Decision Transformer with a large language corpus can improve downstream performance (Reid et al., 2022). A natural question to ask is whether this performance gain can only be achieved with language pre-training, or can be achieved with simpler pre-training schemes which do not involve language. In this paper, we first show that language is not essential for improved performance, and indeed pre-training with synthetic IID data for a small number of updates can match the performance gains from pre-training with a large language corpus; moreover, pre-training with data generated by a one-step Markov chain can further improve the performance. Inspired by these experimental results, we then consider pre-training Conservative Q-Learning (CQL), a popular offline DRL algorithm, which is Q-learning-based and typically employs a Multi-Layer Perceptron (MLP) backbone. Surprisingly, pre-training with simple synthetic data for a small number of updates can also improve CQL, providing consistent performance improvement on D4RL Gym locomotion datasets. The results of this paper not only illustrate the importance of pre-training for offline DRL but also show that the pre-training data can be synthetic and generated with remarkably simple mechanisms.

arxiv情報

著者 Zecheng Wang,Che Wang,Zixuan Dong,Keith Ross
発行日 2024-05-27 17:16:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク