K-VIL: Keypoints-based Visual Imitation Learning

要約

視覚模倣学習は、ロボット システムが新しい操作スキルを習得するための効率的で直感的なソリューションを提供します。
ただし、視覚的な入力のみから幾何学的なタスクの制約と制御ポリシーを同時に学習することは、依然として困難な問題です。
この論文では、少数の人間のデモンストレーションビデオから、まばらでオブジェクト中心の、実施形態に依存しないタスク表現を自動的に抽出する、キーポイントベースの視覚的模倣 (K-VIL) のアプローチを提案します。
タスク表現は、主多様体、関連するローカル フレーム、およびタスクの実行に必要な移動プリミティブに対するキーポイント ベースの幾何学的制約で構成されます。
私たちのアプローチは、単一のデモビデオからそのようなタスク表現を抽出し、新しいデモが利用可能になったときにそれらを段階的に更新することができます。
新しいシーンで学習した一連の優先順位付けされた幾何学的制約を使用して操作スキルを再現するために、新しいキーポイント ベースのアドミタンス コントローラーを導入します。
いくつかの実世界のアプリケーションでアプローチを評価し、雑然としたシーン、視点の不一致、カテゴリオブジェクトの新しいインスタンス、大きなオブジェクトのポーズと形状のバリエーションを処理する能力、およびワンショットとワンショットの両方での効率と堅牢性を示します。
数ショット模倣学習設定。
ビデオとソース コードは、https://sites.google.com/view/k-vil で入手できます。

要約(オリジナル)

Visual imitation learning provides efficient and intuitive solutions for robotic systems to acquire novel manipulation skills. However, simultaneously learning geometric task constraints and control policies from visual inputs alone remains a challenging problem. In this paper, we propose an approach for keypoint-based visual imitation (K-VIL) that automatically extracts sparse, object-centric, and embodiment-independent task representations from a small number of human demonstration videos. The task representation is composed of keypoint-based geometric constraints on principal manifolds, their associated local frames, and the movement primitives that are then needed for the task execution. Our approach is capable of extracting such task representations from a single demonstration video, and of incrementally updating them when new demonstrations become available. To reproduce manipulation skills using the learned set of prioritized geometric constraints in novel scenes, we introduce a novel keypoint-based admittance controller. We evaluate our approach in several real-world applications, showcasing its ability to deal with cluttered scenes, viewpoint mismatch, new instances of categorical objects, and large object pose and shape variations, as well as its efficiency and robustness in both one-shot and few-shot imitation learning settings. Videos and source code are available at https://sites.google.com/view/k-vil.

arxiv情報

著者 Jianfeng Gao,Zhi Tao,Noémie Jaquier,Tamim Asfour
発行日 2023-02-20 13:57:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク