要約
報酬がまばらな複数目標のロボット操作タスクは、成功体験の収集が非効率であるため、強化学習 (RL) アルゴリズムでは困難です。
Hindsight Experience Replay (HER) などの最近のアルゴリズムは、失敗した軌跡を利用し、目的の目標を達成された状態の 1 つに置き換えることによって学習を促進し、失敗した軌跡を学習への貢献として利用できるようにします。
ただし、HER は、どの軌道が学習にとって最も価値があるかを考慮せずに、失敗した軌道を一律に選択します。
この論文では、この問題に対処し、ロボットのグリッパー内のタッチセンサーとオブジェクトの変位を利用して、接触による豊富な情報に基づいて再生バッファーからサンプルを選択する新しいアプローチである接触エネルギーベースの優先順位付け (CEBP) を提案します。
。
私たちの優先順位付けスキームでは、おそらく最も大量の情報を提供するエクスペリエンスである接触の多いエクスペリエンスのサンプリングが優先されます。
私たちは、さまざまなスパース報酬ロボットタスクに対して提案したアプローチを評価し、それらを最先端の方法と比較します。
私たちの方法がロボット操作タスクにおいてそれらの方法を上回るか、同等の性能を発揮することを示します。
最後に、私たちのメソッドからトレーニング済みのポリシーを実際の Franka ロボットにデプロイして、ピック アンド プレイス タスクを実行します。
ロボットがタスクをうまく解決できることが観察されます。
ビデオとコードは、https://erdiphd.github.io/HER_force で公開されています。
要約(オリジナル)
Multi-goal robot manipulation tasks with sparse rewards are difficult for reinforcement learning (RL) algorithms due to the inefficiency in collecting successful experiences. Recent algorithms such as Hindsight Experience Replay (HER) expedite learning by taking advantage of failed trajectories and replacing the desired goal with one of the achieved states so that any failed trajectory can be utilized as a contribution to learning. However, HER uniformly chooses failed trajectories, without taking into account which ones might be the most valuable for learning. In this paper, we address this problem and propose a novel approach Contact Energy Based Prioritization~(CEBP) to select the samples from the replay buffer based on rich information due to contact, leveraging the touch sensors in the gripper of the robot and object displacement. Our prioritization scheme favors sampling of contact-rich experiences, which are arguably the ones providing the largest amount of information. We evaluate our proposed approach on various sparse reward robotic tasks and compare them with the state-of-the-art methods. We show that our method surpasses or performs on par with those methods on robot manipulation tasks. Finally, we deploy the trained policy from our method to a real Franka robot for a pick-and-place task. We observe that the robot can solve the task successfully. The videos and code are publicly available at: https://erdiphd.github.io/HER_force
arxiv情報
著者 | Erdi Sayar,Zhenshan Bing,Carlo D’Eramo,Ozgur S. Oguz,Alois Knoll |
発行日 | 2023-12-05 11:32:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google