MRHER: Model-based Relay Hindsight Experience Replay for Sequential Object Manipulation Tasks with Sparse Rewards

要約

報酬が少ないと、目標条件付き強化学習 (RL) で高いサンプル効率を達成するのに大きな課題が生じます。
具体的には、逐次操作タスクでは、エージェントは操作タスク全体を正常に完了するまで失敗報酬を受け取るため、サンプル効率が低くなります。
この問題に取り組み、サンプル効率を向上させるために、モデルベースのリレー Hindsight Experience Replay (MRHER) と呼ばれる新しいモデルベースの RL フレームワークを提案します。
MRHER は、連続タスクを複雑さが増すサブタスクに分割し、前のサブタスクを利用して次のサブタスクの学習をガイドします。
すべてのサブタスクで Hindsight Experience Replay (HER) を使用する代わりに、Foresight relabeling (FR) と呼ばれる新しい堅牢なモデルベースの再ラベル付け手法を設計します。
FR は、事後状態の将来の軌道を予測し、予想される目標を仮想の将来の軌道で達成される目標として再ラベル付けします。
FR を組み込むことで、MRHER は過去の経験からより多くの情報を効果的に取得し、特にオブジェクト操作環境におけるサンプル効率の向上につながります。
実験結果は、MRHER がベンチマーク タスクにおいて最先端のサンプル効率を示し、FetchPush-v1 環境および FetchPickandPlace-v1 環境でそれぞれ RHER を 13.79% および 14.29% 上回っていることを示しています。

要約(オリジナル)

Sparse rewards pose a significant challenge to achieving high sample efficiency in goal-conditioned reinforcement learning (RL). Specifically, in sequential manipulation tasks, the agent receives failure rewards until it successfully completes the entire manipulation task, which leads to low sample efficiency. To tackle this issue and improve sample efficiency, we propose a novel model-based RL framework called Model-based Relay Hindsight Experience Replay (MRHER). MRHER breaks down a continuous task into subtasks with increasing complexity and utilizes the previous subtask to guide the learning of the subsequent one. Instead of using Hindsight Experience Replay (HER) in every subtask, we design a new robust model-based relabeling method called Foresight relabeling (FR). FR predicts the future trajectory of the hindsight state and relabels the expected goal as a goal achieved on the virtual future trajectory. By incorporating FR, MRHER effectively captures more information from historical experiences, leading to improved sample efficiency, particularly in object-manipulation environments. Experimental results demonstrate that MRHER exhibits state-of-the-art sample efficiency in benchmark tasks, outperforming RHER by 13.79% and 14.29% in the FetchPush-v1 environment and FetchPickandPlace-v1 environment, respectively.

arxiv情報

著者 Yuming Huang,Bin Ren,Ziming Xu,Lianghong Wu
発行日 2024-06-21 09:11:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク