Learning Multi-Step Manipulation Tasks from A Single Human Demonstration

要約

人間のデモンストレーションから学ぶことで、ロボット操作において目覚ましい成果が得られました。
しかし、特に複雑で構造化されていない現実世界のシナリオにおいて、学習と一般化において人間の能力とデータ効率に見合ったロボット システムを開発するという課題は依然として残っています。
私たちは、RGBD ビデオを処理して人間の動作をロボットのプリミティブに変換し、Grounded Segment Anything を使用してオブジェクトのタスクに関連する主要なポーズを識別するシステムを提案します。
次に、運動学と衝突幾何学における人間とロボットの違いを考慮して、人間の動作を再現するロボットの課題に取り組みます。
システムの有効性をテストするために、手動食器洗いに焦点を当てた実験を実施しました。
モックアップキッチンで記録された 1 人の人間によるデモンストレーションにより、システムは各ステップで 50 ~ 100% の成功率を達成し、家庭用キッチンのさまざまなオブジェクトを使用したタスク全体で最大 40% の成功率を達成しました。
ビデオは https://robot-dishwashing.github.io でご覧いただけます。

要約(オリジナル)

Learning from human demonstrations has exhibited remarkable achievements in robot manipulation. However, the challenge remains to develop a robot system that matches human capabilities and data efficiency in learning and generalizability, particularly in complex, unstructured real-world scenarios. We propose a system that processes RGBD videos to translate human actions to robot primitives and identifies task-relevant key poses of objects using Grounded Segment Anything. We then address challenges for robots in replicating human actions, considering the human-robot differences in kinematics and collision geometry. To test the effectiveness of our system, we conducted experiments focusing on manual dishwashing. With a single human demonstration recorded in a mockup kitchen, the system achieved 50-100% success for each step and up to a 40% success rate for the whole task with different objects in a home kitchen. Videos are available at https://robot-dishwashing.github.io

arxiv情報

著者 Dingkun Guo
発行日 2024-01-04 18:19:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク