要約
よりサンプル効率の高い強化学習 (RL) アルゴリズムを探す場合、有望な方向性は、可能な限り多くのポリシー外の外部データを活用することです。
たとえば、専門家のデモンストレーション。
これまで、リプレイ バッファに追加されたデモを有効に活用するための複数のアイデアが提案されてきました。たとえば、デモのみの事前トレーニングや追加のコスト関数の最小化などです。
ポリシー外のアルゴリズムを使用して、報酬が少ない環境でオンラインで収集されたデモンストレーションとエピソードの両方を活用できる新しい方法を提示します。
私たちの方法は、デモンストレーションと成功したエピソード (再ラベル付けによる) に与えられる報酬ボーナスに基づいており、専門家の模倣と自己模倣を奨励しています。
私たちの実験は、2 つの異なるシミュレーション環境にわたるいくつかのロボット操作タスクに焦点を当てています。
報酬の再ラベル付けに基づく方法が、これらのタスクでの基本アルゴリズム (SAC および DDPG) のパフォーマンスを向上させることを示します。
最後に、最高のアルゴリズム STIR$^2$ (Reward Relabeling による自己と教師の模倣) は、以前の研究からの複数の改善をメソッドに統合し、すべてのベースラインよりもデータ効率が高くなります。
要約(オリジナル)
In the search for more sample-efficient reinforcement-learning (RL) algorithms, a promising direction is to leverage as much external off-policy data as possible. For instance, expert demonstrations. In the past, multiple ideas have been proposed to make good use of the demonstrations added to the replay buffer, such as pretraining on demonstrations only or minimizing additional cost functions. We present a new method, able to leverage both demonstrations and episodes collected online in any sparse-reward environment with any off-policy algorithm. Our method is based on a reward bonus given to demonstrations and successful episodes (via relabeling), encouraging expert imitation and self-imitation. Our experiments focus on several robotic-manipulation tasks across two different simulation environments. We show that our method based on reward relabeling improves the performance of the base algorithm (SAC and DDPG) on these tasks. Finally, our best algorithm STIR$^2$ (Self and Teacher Imitation by Reward Relabeling), which integrates into our method multiple improvements from previous works, is more data-efficient than all baselines.
arxiv情報
著者 | Jesus Bujalance Martin,Fabien Moutarde |
発行日 | 2023-02-28 11:31:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google