Efficient Online Reinforcement Learning with Offline Data

要約

サンプルの効率と探索は、オンライン強化学習 (RL) における主要な課題のままです。
これらの問題に対処するために適用できる強力なアプローチは、人間の専門家からの以前の軌跡や次善の探査ポリシーなど、オフライン データを含めることです。
以前の方法では、このデータを効果的に使用するために、大幅な変更と追加の複雑さが必要でした。
代わりに、オンライン学習時に既存のポリシー外の方法を単純に適用して、オフライン データを活用できるかどうかを尋ねます。
この作業では、答えがイエスであることを示しています。
ただし、信頼できるパフォーマンスを実現するには、既存のポリシー外の RL アルゴリズムに対する一連の最小限の重要な変更が必要です。
私たちはこれらの設計上の選択肢を広範囲に除去し、パフォーマンスに最も影響を与える重要な要因を示し、データが少数の専門家のデモンストレーションで構成されているか、大量の次善の軌道で構成されているかに関係なく、実践者がすぐに適用できる一連の推奨事項に到達します。
これらの単純な推奨事項を正しく適用することで、追加の計算オーバーヘッドなしで、さまざまな競合ベンチマーク セット全体で既存のアプローチよりも $\mathbf{2.5\times}$ 改善できることがわかります。

要約(オリジナル)

Sample efficiency and exploration remain major challenges in online reinforcement learning (RL). A powerful approach that can be applied to address these issues is the inclusion of offline data, such as prior trajectories from a human expert or a sub-optimal exploration policy. Previous methods have relied on extensive modifications and additional complexity to ensure the effective use of this data. Instead, we ask: can we simply apply existing off-policy methods to leverage offline data when learning online? In this work, we demonstrate that the answer is yes; however, a set of minimal but important changes to existing off-policy RL algorithms are required to achieve reliable performance. We extensively ablate these design choices, demonstrating the key factors that most affect performance, and arrive at a set of recommendations that practitioners can readily apply, whether their data comprise a small number of expert demonstrations or large volumes of sub-optimal trajectories. We see that correct application of these simple recommendations can provide a $\mathbf{2.5\times}$ improvement over existing approaches across a diverse set of competitive benchmarks, with no additional computational overhead.

arxiv情報

著者 Philip J. Ball,Laura Smith,Ilya Kostrikov,Sergey Levine
発行日 2023-02-15 13:06:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク