要約
データの再生は、オフポリシー強化学習 (RL) の安定性とデータ効率の基礎となる主要なメカニズムです。
複数の実験にわたってリプレイの使用を拡張し、RL ワークフローを最小限に適応させてコントローラーのパフォーマンスと研究の反復時間を大幅に改善するための効果的かつシンプルなフレームワークを紹介します。
Replay Across Experiments (RaE) の中核には、以前の実験の経験を再利用して、以前の作業と比較して必要な変更を最小限に抑えながら探索とブートストラップ学習を改善することが含まれます。
私たちは、自己中心的なビジョンからの困難な探索タスクを含む、移動と操作の両方に及ぶ多くの RL アルゴリズムと困難な制御ドメインにわたる利点を経験的に示しています。
包括的なアブレーションを通じて、利用可能なデータの質と量、およびさまざまなハイパーパラメータの選択に対する堅牢性を実証します。
最後に、私たちのアプローチを研究ライフサイクル全体にわたってより広範に適用し、ランダムシードまたはハイパーパラメータのバリエーション全体でデータを再ロードすることで回復力を高める方法について説明します。
要約(オリジナル)
Replaying data is a principal mechanism underlying the stability and data efficiency of off-policy reinforcement learning (RL). We present an effective yet simple framework to extend the use of replays across multiple experiments, minimally adapting the RL workflow for sizeable improvements in controller performance and research iteration times. At its core, Replay Across Experiments (RaE) involves reusing experience from previous experiments to improve exploration and bootstrap learning while reducing required changes to a minimum in comparison to prior work. We empirically show benefits across a number of RL algorithms and challenging control domains spanning both locomotion and manipulation, including hard exploration tasks from egocentric vision. Through comprehensive ablations, we demonstrate robustness to the quality and amount of data available and various hyperparameter choices. Finally, we discuss how our approach can be applied more broadly across research life cycles and can increase resilience by reloading data across random seeds or hyperparameter variations.
arxiv情報
著者 | Dhruva Tirumala,Thomas Lampe,Jose Enrique Chen,Tuomas Haarnoja,Sandy Huang,Guy Lever,Ben Moran,Tim Hertweck,Leonard Hasenclever,Martin Riedmiller,Nicolas Heess,Markus Wulfmeier |
発行日 | 2023-11-27 15:57:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google