Using Implicit Behavior Cloning and Dynamic Movement Primitive to Facilitate Reinforcement Learning for Robot Motion Planning

要約

多自由度ロボットの動作計画のための強化学習 (RL) は、トレーニング速度の遅さや一般化性の低さなどの点で依然として効率が低いという問題があります。
この論文では、暗黙的動作クローニング (IBC) と動的動作プリミティブ (DMP) を使用して、オフポリシー RL エージェントのトレーニング速度と一般化可能性を向上させる、新しい RL ベースのロボット動作計画フレームワークを提案します。
IBC は人間のデモンストレーション データを利用して RL のトレーニング速度を活用し、DMP は動作計画をより単純な計画空間に移すヒューリスティック モデルとして機能します。
これを裏付けるために、同様の研究に使用できるピックアンドプレイス実験を使用して人間によるデモンストレーション データセットも作成します。
シミュレーションでの比較研究により、提案された方法が従来の RL エージェントに比べてトレーニング速度が速く、スコアが高いという利点があることが明らかになりました。
実際のロボット実験により、提案手法が単純な組み立て作業に適用できることが示されています。
私たちの研究は、モーション プリミティブと人間によるデモンストレーションを使用して、ロボット アプリケーションに RL のパフォーマンスを活用することに関する新しい視点を提供します。

要約(オリジナル)

Reinforcement learning (RL) for motion planning of multi-degree-of-freedom robots still suffers from low efficiency in terms of slow training speed and poor generalizability. In this paper, we propose a novel RL-based robot motion planning framework that uses implicit behavior cloning (IBC) and dynamic movement primitive (DMP) to improve the training speed and generalizability of an off-policy RL agent. IBC utilizes human demonstration data to leverage the training speed of RL, and DMP serves as a heuristic model that transfers motion planning into a simpler planning space. To support this, we also create a human demonstration dataset using a pick-and-place experiment that can be used for similar studies. Comparison studies in simulation reveal the advantage of the proposed method over the conventional RL agents with faster training speed and higher scores. A real-robot experiment indicates the applicability of the proposed method to a simple assembly task. Our work provides a novel perspective on using motion primitives and human demonstration to leverage the performance of RL for robot applications.

arxiv情報

著者 Zengjie Zhang,Jayden Hong,Amir Soufi Enayati,Homayoun Najjaran
発行日 2024-08-18 19:55:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク