要約
特定の環境の複数目標強化学習では、エージェントは環境との対話から得た経験を使用して、複数の目標を達成するためのポリシーを学習します。
この設定における重要な課題の 1 つは、まばらなバイナリ報酬を使用してエージェントをトレーニングすることですが、成功体験が不足しているため難しい場合があります。
この課題に対処するために、後知恵体験リプレイ (HER) は、失敗した経験から成功した経験を生成します。
ただし、均一にサンプリングされたものから成功体験を生成するプロセスは非効率となる可能性があります。
この論文では、サンプリング効率を高めるために、Failed Goal Aware HER (FAHER) と呼ばれる新しいアプローチを提案します。
このアプローチは、元の目標が達成されなかったとして定義される失敗した目標に関連して、達成された目標の特性を利用します。
提案された方法では、クラスター モデルを使用してさまざまな達成目標を持つエピソードをクラスター化し、その後 HER の方法でエクスペリエンスをサンプリングします。
クラスター モデルは、失敗した目標にクラスター化アルゴリズムを適用することによって生成されます。
提案された手法は、OpenAI ジムの 3 つのロボット制御タスクを用いた実験によって検証されます。
実験の結果は、提案された方法がサンプル効率が高く、ベースラインのアプローチよりもパフォーマンスの向上が達成されることを示しています。
要約(オリジナル)
In multi-goal reinforcement learning for a given environment, agents learn policies to achieve multiple goals by using experiences gained from interactions with the environment. One of the key challenges in this setting is training agents using sparse binary rewards, which can be difficult due to a lack of successful experiences. To address this challenge, hindsight experience replay (HER) generates successful experiences from unsuccessful experiences. However, the process of generating successful experiences from uniformly sampled ones can be inefficient. In this paper, a novel approach called Failed goal Aware HER (FAHER) is proposed to enhance the sampling efficiency. The approach exploits the property of achieved goals in relation to failed goals that are defined as the original goals not achieved. The proposed method involves clustering episodes with different achieved goals using a cluster model and subsequently sampling experiences in the manner of HER. The cluster model is generated by applying a clustering algorithm to failed goals. The proposed method is validated by experiments with three robotic control tasks of the OpenAI gym. The results of experiments demonstrate that the proposed method is more sample efficient and achieves improved performance over baseline approaches.
arxiv情報
著者 | Taeyoung Kim,Dongsoo Har |
発行日 | 2023-11-07 01:52:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google