SparseDFF: Sparse-View Feature Distillation for One-Shot Dexterous Manipulation

要約

人間は、異なるインスタンス間の意味論的な対応を理解しているため、さまざまなオブジェクトの形状、ポーズ、外観にまたがって操作スキルを伝達することに優れています。
ロボットに同様の高レベルの理解を与えるために、大規模な 2D ビジョン モデルを活用してマルチビュー画像から意味論的な特徴を抽出する 3D シーン用の抽出特徴フィールド (DFF) を開発します。
現在の研究では、密なビューから DFF を再構成する高度なパフォーマンスが実証されていますが、固定カメラを使用した多数の操作タスクで普及しているにもかかわらず、疎なビューから DFF を学習する開発は比較的初期段階にあります。
この研究では、スパース RGBD 観察からビュー一貫性のある 3D DFF を取得する新しい方法である SparseDFF を導入し、新しいシーンに応用できる器用な操作のワンショット学習を可能にします。
具体的には、画像の特徴を 3D 点群にマッピングし、3D 空間全体に伝播して高密度の特徴フィールドを確立できるようにします。
SparseDFF の中核となるのは、画像特徴を 3D 点群に逆投影した後、ペアごとのビュー間のコントラスト損失で最適化された軽量の特徴改善ネットワークです。
さらに、ポイント枝刈りメカニズムを実装して、各ローカル近傍内のフィーチャの連続性を強化します。
ソース シーンとターゲット シーンの両方で一貫した特徴フィールドを確立することで、シーンに関する特徴の不一致の最小化を促進するエネルギー関数を考案します。
デモンストレーションとターゲット操作の間のエンドエフェクターのパラメーター。
私たちは器用な手を使用してアプローチを評価し、剛体と変形可能なオブジェクトの両方に対する現実世界の操作を習得し、オブジェクトとシーンのコンテキストの変化に直面して堅牢な一般化を示します。

要約(オリジナル)

Humans excel at transferring manipulation skills across diverse object shapes, poses, and appearances due to their understanding of semantic correspondences between different instances. To endow robots with a similar high-level understanding, we develop a Distilled Feature Field (DFF) for 3D scenes, leveraging large 2D vision models to distill semantic features from multiview images. While current research demonstrates advanced performance in reconstructing DFFs from dense views, the development of learning a DFF from sparse views is relatively nascent, despite its prevalence in numerous manipulation tasks with fixed cameras. In this work, we introduce SparseDFF, a novel method for acquiring view-consistent 3D DFFs from sparse RGBD observations, enabling one-shot learning of dexterous manipulations that are transferable to novel scenes. Specifically, we map the image features to the 3D point cloud, allowing for propagation across the 3D space to establish a dense feature field. At the core of SparseDFF is a lightweight feature refinement network, optimized with a contrastive loss between pairwise views after back-projecting the image features onto the 3D point cloud. Additionally, we implement a point-pruning mechanism to augment feature continuity within each local neighborhood. By establishing coherent feature fields on both source and target scenes, we devise an energy function that facilitates the minimization of feature discrepancies w.r.t. the end-effector parameters between the demonstration and the target manipulation. We evaluate our approach using a dexterous hand, mastering real-world manipulations on both rigid and deformable objects, and showcase robust generalization in the face of object and scene-context variations.

arxiv情報

著者 Qianxu Wang,Haotong Zhang,Congyue Deng,Yang You,Hao Dong,Yixin Zhu,Leonidas Guibas
発行日 2023-10-25 17:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク