K-VIL: Keypoints-based Visual Imitation Learning


視覚模倣学習は、ロボット システムが新しい操作スキルを習得するための効率的で直感的なソリューションを提供します。
この論文では、少数の人間のデモンストレーションビデオから、まばらでオブジェクト中心の、実施形態に依存しないタスク表現を自動的に抽出する、キーポイントベースの視覚的模倣 (K-VIL) のアプローチを提案します。
タスク表現は、主多様体、関連するローカル フレーム、およびタスクの実行に必要な移動プリミティブに対するキーポイント ベースの幾何学的制約で構成されます。
新しいシーンで学習した一連の優先順位付けされた幾何学的制約を使用して操作スキルを再現するために、新しいキーポイント ベースのアドミタンス コントローラーを導入します。
ビデオとソース コードは、https://sites.google.com/view/k-vil で入手できます。


Visual imitation learning provides efficient and intuitive solutions for robotic systems to acquire novel manipulation skills. However, simultaneously learning geometric task constraints and control policies from visual inputs alone remains a challenging problem. In this paper, we propose an approach for keypoint-based visual imitation (K-VIL) that automatically extracts sparse, object-centric, and embodiment-independent task representations from a small number of human demonstration videos. The task representation is composed of keypoint-based geometric constraints on principal manifolds, their associated local frames, and the movement primitives that are then needed for the task execution. Our approach is capable of extracting such task representations from a single demonstration video, and of incrementally updating them when new demonstrations become available. To reproduce manipulation skills using the learned set of prioritized geometric constraints in novel scenes, we introduce a novel keypoint-based admittance controller. We evaluate our approach in several real-world applications, showcasing its ability to deal with cluttered scenes, viewpoint mismatch, new instances of categorical objects, and large object pose and shape variations, as well as its efficiency and robustness in both one-shot and few-shot imitation learning settings. Videos and source code are available at https://sites.google.com/view/k-vil.


著者 Jianfeng Gao,Zhi Tao,Noémie Jaquier,Tamim Asfour
発行日 2023-02-20 13:57:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク