Imaginary Hindsight Experience Replay: Curious Model-based Learning for Sparse Reward Tasks

要約

モデルベースの強化学習は、モデルフリーの強化学習と比較してデータ効率が向上しているため、実際のロボット応用にとって有望な学習戦略です。
ただし、現在の最先端のモデルベースの手法は、整形された報酬信号に依存しているため、設計と実装が困難な場合があります。
これを解決するために、複雑な報酬エンジニアリングの必要性を排除し、報酬がまばらな複数の目標タスクに合わせたシンプルなモデルベースの手法を提案します。
このアプローチは、Imaginary Hindsight Experience Replay と呼ばれ、架空のデータをポリシー更新に組み込むことで現実世界の相互作用を最小限に抑えます。
報酬が少ない設定での探索を改善するために、ポリシーは標準の Hindsight Experience Replay でトレーニングされ、好奇心に基づく固有の報酬が与えられます。
評価すると、このアプローチは、ベンチマークとなる OpenAI Gym Fetch Robotics タスクにおける最先端のモデルフリー手法と比較して、平均でデータ効率が桁違いに向上します。

要約(オリジナル)

Model-based reinforcement learning is a promising learning strategy for practical robotic applications due to its improved data-efficiency versus model-free counterparts. However, current state-of-the-art model-based methods rely on shaped reward signals, which can be difficult to design and implement. To remedy this, we propose a simple model-based method tailored for sparse-reward multi-goal tasks that foregoes the need for complicated reward engineering. This approach, termed Imaginary Hindsight Experience Replay, minimises real-world interactions by incorporating imaginary data into policy updates. To improve exploration in the sparse-reward setting, the policy is trained with standard Hindsight Experience Replay and endowed with curiosity-based intrinsic rewards. Upon evaluation, this approach provides an order of magnitude increase in data-efficiency on average versus the state-of-the-art model-free method in the benchmark OpenAI Gym Fetch Robotics tasks.

arxiv情報

著者 Robert McCarthy,Qiang Wang,Stephen J. Redmond
発行日 2023-08-09 09:29:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク