Offline Skill Generalization via Task and Motion Planning

要約

この論文では、サンプリングベースのタスクおよび動作プランナーとオフライン強化学習アルゴリズムを組み合わせることにより、ロボット操作スキルを一般化するための新しいアプローチを紹介します。
スクリプト化されたプリミティブ スキル (Push など) とオブジェクト中心の記号述語 (On(block, plate) など) の小さなライブラリから始めて、プランナーは長期的なタスクのコンテキストで操作スキルのデモンストレーション データセットを自律的に生成します。
オフライン強化学習アルゴリズムは、環境とのさらなる対話を行わずにデータセットからポリシーを抽出し、既存のライブラリ内のスクリプト化されたスキルを置き換えます。
スキル ライブラリを改良することでプランナーの堅牢性が向上し、より複雑な操作スキルのデータ収集が容易になります。
ブロックプッシュタスクのシミュレーションでアプローチを検証します。
提案手法が従来の強化学習手法よりも必要な学習データが少ないことを示します。
さらに、プランナーのデモンストレーションを使用するため、環境との対話には衝突がなく、このアプローチは現実世界での永続的なロボット学習により適しています。

要約(オリジナル)

This paper presents a novel approach to generalizing robot manipulation skills by combining a sampling-based task-and-motion planner with an offline reinforcement learning algorithm. Starting with a small library of scripted primitive skills (e.g. Push) and object-centric symbolic predicates (e.g. On(block, plate)), the planner autonomously generates a demonstration dataset of manipulation skills in the context of a long-horizon task. An offline reinforcement learning algorithm then extracts a policy from the dataset without further interactions with the environment and replaces the scripted skill in the existing library. Refining the skill library improves the robustness of the planner, which in turn facilitates data collection for more complex manipulation skills. We validate our approach in simulation, on a block-pushing task. We show that the proposed method requires less training data than conventional reinforcement learning methods. Furthermore, interaction with the environment is collision-free because of the use of planner demonstrations, making the approach more amenable to persistent robot learning in the real world.

arxiv情報

著者 Shin Watanabe,Geir Horn,Jim Tørresen,Kai Olav Ellefsen
発行日 2023-11-24 08:06:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク