K-VIL: Keypoints-based Visual Imitation Learning

要約

視覚模倣学習は、ロボット システムが新しい操作スキルを習得するための効率的かつ直感的なソリューションを提供します。
ただし、幾何学的タスクの制約と制御ポリシーを視覚入力だけから同時に学習することは依然として困難な問題です。
この論文では、少数の人間によるデモンストレーションビデオから、まばらでオブジェクト中心で実施形態に依存しないタスク表現を自動的に抽出する、キーポイントベースの視覚模倣(K-VIL)のアプローチを提案します。
タスク表現は、主多様体、それに関連するローカル フレーム、およびタスクの実行に必要な移動プリミティブに対するキーポイント ベースの幾何学的制約で構成されます。
私たちのアプローチは、単一のデモンストレーション ビデオからそのようなタスク表現を抽出し、新しいデモンストレーションが利用可能になったときにそれらを段階的に更新することができます。
新しいシーンで優先順位付けされた幾何学的制約の学習済みセットを使用して操作スキルを再現するために、新しいキーポイント ベースのアドミタンス コントローラーを導入します。
私たちのアプローチをいくつかの実世界のアプリケーションで評価し、乱雑なシーン、視点の不一致、カテゴリカル オブジェクトの新しいインスタンス、大きなオブジェクトのポーズと形状の変化に対処する能力、およびワンショットと両方の効率とロバスト性を示します。
数ショット模倣学習設定。
ビデオとソース コードは https://sites.google.com/view/k-vil で入手できます。

要約(オリジナル)

Visual imitation learning provides efficient and intuitive solutions for robotic systems to acquire novel manipulation skills. However, simultaneously learning geometric task constraints and control policies from visual inputs alone remains a challenging problem. In this paper, we propose an approach for keypoint-based visual imitation (K-VIL) that automatically extracts sparse, object-centric, and embodiment-independent task representations from a small number of human demonstration videos. The task representation is composed of keypoint-based geometric constraints on principal manifolds, their associated local frames, and the movement primitives that are then needed for the task execution. Our approach is capable of extracting such task representations from a single demonstration video, and of incrementally updating them when new demonstrations become available. To reproduce manipulation skills using the learned set of prioritized geometric constraints in novel scenes, we introduce a novel keypoint-based admittance controller. We evaluate our approach in several real-world applications, showcasing its ability to deal with cluttered scenes, viewpoint mismatch, new instances of categorical objects, and large object pose and shape variations, as well as its efficiency and robustness in both one-shot and few-shot imitation learning settings. Videos and source code are available at https://sites.google.com/view/k-vil.

arxiv情報

著者 Jianfeng Gao,Zhi Tao,Noémie Jaquier,Tamim Asfour
発行日 2023-07-25 11:30:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク