HiER: Highlight Experience Replay and Easy2Hard Curriculum Learning for Boosting Off-Policy Reinforcement Learning Agents

要約

強化学習ベースのアルゴリズムは多くの領域で超人的なパフォーマンスを達成しましたが、状態空間と行動空間が連続的であり、報酬関数が主に疎であるため、ロボット工学の分野では重大な課題が生じています。
この研究では、1) HiER: 最も関連性の高いエクスペリエンスのための 2 次リプレイ バッファーを作成するハイライト エクスペリエンス リプレイ、2) E2H-ISE: easy2hard データ収集カリキュラム – 初期状態のエントロピー制御に基づく学習方法 – を提案します。
目標分布とそれに伴う間接的なタスクの難易度、および 3) HiER+: HiER と E2H-ISE の組み合わせ。
これらは、後知恵エクスペリエンス リプレイ (HER) および優先エクスペリエンス リプレイ (PER) のテクニックの有無にかかわらず適用できます。
HiER と E2H-ISE は両方ともベースラインを上回っていますが、HiER+ は結果をさらに改善し、プッシュ、スライド、ピック アンド プレースのロボット操作タスクにおいて最先端のパフォーマンスを大幅に上回っています。
私たちの実装とその他のメディア資料はプロジェクト サイトで入手できます。

要約(オリジナル)

Even though reinforcement-learning-based algorithms achieved superhuman performance in many domains, the field of robotics poses significant challenges as the state and action spaces are continuous, and the reward function is predominantly sparse. In this work, we propose: 1) HiER: highlight experience replay that creates a secondary replay buffer for the most relevant experiences, 2) E2H-ISE: an easy2hard data collection curriculum-learning method based on controlling the entropy of the initial state-goal distribution and with it, indirectly, the task difficulty, and 3) HiER+: the combination of HiER and E2H-ISE. They can be applied with or without the techniques of hindsight experience replay (HER) and prioritized experience replay (PER). While both HiER and E2H-ISE surpass the baselines, HiER+ further improves the results and significantly outperforms the state-of-the-art on the push, slide, and pick-and-place robotic manipulation tasks. Our implementation and further media materials are available on the project site.

arxiv情報

著者 Dániel Horváth,Jesús Bujalance Martín,Ferenc Gábor Erdős,Zoltán Istenes,Fabien Moutarde
発行日 2023-12-14 23:14:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク