HiER: Highlight Experience Replay for Boosting Off-Policy Reinforcement Learning Agents

要約

強化学習ベースのアルゴリズムは多くの領域で超人的なパフォーマンスを達成しましたが、状態空間と行動空間が連続的であり、報酬関数が主に疎であるため、ロボット工学の分野では重大な課題が生じています。
さらに、多くの場合、エージェントはいかなる形式のデモンストレーションにもアクセスできません。
人間の学習にヒントを得て、この研究では、最も関連性の高いエクスペリエンスのための 2 番目のハイライト リプレイ バッファーを作成する、ハイライト エクスペリエンス リプレイ (HiER) という名前のメソッドを提案します。
ウェイト更新の場合、トランジションは標準とハイライト エクスペリエンスの両方のリプレイ バッファーからサンプリングされます。
これは、後知恵エクスペリエンス リプレイ (HER) および優先エクスペリエンス リプレイ (PER) のテクニックの有無にかかわらず適用できます。
私たちの手法は、3 つのロボット ベンチマークの 8 つのタスクで検証された最先端のパフォーマンスを大幅に向上させます。
さらに、HiER の可能性を最大限に引き出すために、HiER を任意のデータ収集カリキュラムの学習方法で強化した HiER+ を提案します。
私たちの実装、定性的結果、およびビデオプレゼンテーションは、プロジェクトサイト http://www.danielhorvath.eu/hier/ でご覧いただけます。

要約(オリジナル)

Even though reinforcement-learning-based algorithms achieved superhuman performance in many domains, the field of robotics poses significant challenges as the state and action spaces are continuous, and the reward function is predominantly sparse. Furthermore, on many occasions, the agent is devoid of access to any form of demonstration. Inspired by human learning, in this work, we propose a method named highlight experience replay (HiER) that creates a secondary highlight replay buffer for the most relevant experiences. For the weights update, the transitions are sampled from both the standard and the highlight experience replay buffer. It can be applied with or without the techniques of hindsight experience replay (HER) and prioritized experience replay (PER). Our method significantly improves the performance of the state-of-the-art, validated on 8 tasks of three robotic benchmarks. Furthermore, to exploit the full potential of HiER, we propose HiER+ in which HiER is enhanced with an arbitrary data collection curriculum learning method. Our implementation, the qualitative results, and a video presentation are available on the project site: http://www.danielhorvath.eu/hier/.

arxiv情報

著者 Dániel Horváth,Jesús Bujalance Martín,Ferenc Gábor Erdős,Zoltán Istenes,Fabien Moutarde
発行日 2024-07-09 15:41:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク