Using Offline Data to Speed-up Reinforcement Learning in Procedurally Generated Environments

要約

タイトル:手続き的に生成された環境における強化学習の高速化のためのオフラインデータの利用

要約:

– 強化学習(RL)の主要な課題の1つは、エージェントが学習した方針を未知の環境に波及させる能力です。
– RLエージェントのトレーニングには、環境との大量の相互作用が必要です。
– オフラインRLおよび模倣学習(IL)の最近の成功によってモチベーションを受け、我々は軌跡の形でのオフラインデータの利用が手続き的に生成された環境でのサンプル効率性の向上にどのように役立つかを調査するための研究を行います。
– 我々は、オンラインRLトレーニング前に方針を事前訓練する(1)とオンラインRLおよびオフラインデータからのILを同時にトレーニングする(2)という2つの設定でオフラインデータからのILの使用を検討します。
– 利用可能なオフライントラジェクトリの品質(軌跡の最適性)と多様性(軌跡の数およびカバーされたレベル)の影響を分析し、MiniGrid環境で4つのよく知られたスパース報酬タスクについて、ILを事前トレーニングと同時にオンラインRLトレーニングに使用することでサンプル効率が一貫して向上し、最適方針に収束することを示します。
– さらに、2つのトラジェクトリから方針を事前訓練することが、オンライントレーニングの最後に最適な方針を学習することと全く学習しないことの違いをもたらすことを示します。
– 結果から、オフラインの軌跡が利用可能であるか生成できる場合は、手続き的に生成された環境における事前トレーニングと同時ILの広範な採用の動機づけになります。

要約(オリジナル)

One of the key challenges of Reinforcement Learning (RL) is the ability of agents to generalise their learned policy to unseen settings. Moreover, training RL agents requires large numbers of interactions with the environment. Motivated by the recent success of Offline RL and Imitation Learning (IL), we conduct a study to investigate whether agents can leverage offline data in the form of trajectories to improve the sample-efficiency in procedurally generated environments. We consider two settings of using IL from offline data for RL: (1) pre-training a policy before online RL training and (2) concurrently training a policy with online RL and IL from offline data. We analyse the impact of the quality (optimality of trajectories) and diversity (number of trajectories and covered level) of available offline trajectories on the effectiveness of both approaches. Across four well-known sparse reward tasks in the MiniGrid environment, we find that using IL for pre-training and concurrently during online RL training both consistently improve the sample-efficiency while converging to optimal policies. Furthermore, we show that pre-training a policy from as few as two trajectories can make the difference between learning an optimal policy at the end of online training and not learning at all. Our findings motivate the widespread adoption of IL for pre-training and concurrent IL in procedurally generated environments whenever offline trajectories are available or can be generated.

arxiv情報

著者 Alain Andres,Lukas Schäfer,Esther Villar-Rodriguez,Stefano V. Albrecht,Javier Del Ser
発行日 2023-04-18 16:23:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク