Cluster-based Sampling in Hindsight Experience Replay for Robotic Tasks (Student Abstract)

要約

スパースなバイナリ報酬による複数目標の強化学習では、成功体験が不足しているため、エージェントのトレーニングが特に困難です。
この問題を解決するために、後知恵経験リプレイ (HER) は、失敗した経験からも成功した経験を生成します。
ただし、均一にサンプリングされた成功体験から成功体験を生成することは効率的なプロセスではありません。
この論文では、成功体験を生成する際に達成された目標の特性を活用することの影響を調査し、新しいクラスターベースのサンプリング戦略を提案します。
提案されたサンプリング戦略では、クラスター モデルを使用してさまざまな達成目標を持つエピソードをグループ化し、HER の方法でエクスペリエンスをサンプリングしてトレーニング バッチを作成します。
提案された手法は、OpenAI Gym の 3 つのロボット制御タスクを使用した実験によって検証されます。
実験の結果は、提案された方法が実質的にサンプル効率が高く、ベースラインのアプローチよりも優れたパフォーマンスを達成することを示しています。

要約(オリジナル)

In multi-goal reinforcement learning with a sparse binary reward, training agents is particularly challenging, due to a lack of successful experiences. To solve this problem, hindsight experience replay (HER) generates successful experiences even from unsuccessful ones. However, generating successful experiences from uniformly sampled ones is not an efficient process. In this paper, the impact of exploiting the property of achieved goals in generating successful experiences is investigated and a novel cluster-based sampling strategy is proposed. The proposed sampling strategy groups episodes with different achieved goals by using a cluster model and samples experiences in the manner of HER to create the training batch. The proposed method is validated by experiments with three robotic control tasks of the OpenAI Gym. The results of experiments demonstrate that the proposed method is substantially sample efficient and achieves better performance than baseline approaches.

arxiv情報

著者 Taeyoung Kim,Dongsoo Har
発行日 2024-01-10 07:48:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク