RoMo-HER: Robust Model-based Hindsight Experience Replay

要約

報酬がまばらであることは、複数目標強化学習 (RL) におけるサンプル効率の低下につながる要因の 1 つです。
Hindsight Experience Replay (HER) に基づいて、トレーニング済みモデルとの対話によって取得された仮想軌道を使用して目標を再ラベルするモデルベースの再ラベル付け手法が提案されています。これにより、正確にモデル化可能な低報酬環境でのサンプル効率を効果的に高めることができます。
ただし、ロボット操作環境では効果がありません。
私たちの論文では、ロボット操作環境で動的モデルを効果的に利用してサンプル効率を高めることができる、Robust Model-based Hindsight Experience Replay (RoMo-HER) と呼ばれる堅牢なフレームワークを設計します。
RoMo-HER は、ダイナミクス モデルと、特定の戦略で予測開始状態を選択し、開始状態の将来の軌道を予測し、ダイナミクスを使用して目標を再ラベル付けする Foresight リラベリング (FR) と呼ばれる新しい目標再ラベル付け手法に基づいて構築されています。
エージェントをトレーニングするためのモデルと最新のポリシー。
実験結果は、いくつかのシミュレートされたロボット操作環境において、RoMo-HER が HER およびモデルベースの Hindsight Experience Replay よりもサンプル効率が高いことを示しています。
さらに、RoMo-HER と Relay Hindsight Experience Replay (RHER) を統合します。現在、ほとんどのベンチマーク環境で最高のサンプリング効率を示しており、その結果、Robust Model-based Relay Hindsight Experience Replay (RoMo-RHER) と呼ばれる新しいアプローチが生まれます。
私たちの実験結果は、RoMo-RHER が RHER よりも高いサンプル効率を達成し、FetchPush-v1 と FetchPickandPlace-v1 でそれぞれ RHER を 25% と 26% 上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

Sparse rewards are one of the factors leading to low sample efficiency in multi-goal reinforcement learning (RL). Based on Hindsight Experience Replay (HER), model-based relabeling methods have been proposed to relabel goals using virtual trajectories obtained by interacting with the trained model, which can effectively enhance the sample efficiency in accurately modelable sparse-reward environments. However, they are ineffective in robot manipulation environment. In our paper, we design a robust framework called Robust Model-based Hindsight Experience Replay (RoMo-HER) which can effectively utilize the dynamical model in robot manipulation environments to enhance the sample efficiency. RoMo-HER is built upon a dynamics model and a novel goal relabeling technique called Foresight relabeling (FR), which selects the prediction starting state with a specific strategy, predicts the future trajectory of the starting state, and then relabels the goal using the dynamics model and the latest policy to train the agent. Experimental results show that RoMo-HER has higher sample efficiency than HER and Model-based Hindsight Experience Replay in several simulated robot manipulation environments. Furthermore, we integrate RoMo-HER and Relay Hindsight Experience Replay (RHER), which currently exhibits the highest sampling efficiency in most benchmark environments, resulting in a novel approach called Robust Model-based Relay Hindsight Experience Replay (RoMo-RHER). Our experimental results demonstrate that RoMo-RHER achieves higher sample efficiency over RHER, outperforming RHER by 25% and 26% in FetchPush-v1 and FetchPickandPlace-v1, respectively.

arxiv情報

著者 Yuming Huang,Bin Ren
発行日 2023-06-28 09:51:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク