要約
人間は、さまざまな形状、ポーズ、外観のオブジェクト間で操作能力を伝達する際に優れたスキルを発揮します。この能力は、異なるインスタンス間の意味論的な対応関係の理解に根ざしています。
ロボットに同様の高度な理解力を持たせるために、大規模な 2D ビジョン モデルを利用して、まばらな RGBD 画像から意味論的特徴を抽出する 3D シーン用の新しい DFF である SparseDFF を紹介します。
カメラのセットアップ。
SparseDFF はビュー一貫性のある 3D DFF を生成し、画像の特徴を 3D 点群にマッピングすることで、巧みな操作を効率的にワンショットで学習できるようにします。
SparseDFF の中心となるのは、ビュー間の対照的な損失と特徴の連続性のためのポイント枝刈りメカニズムで最適化された特徴改良ネットワークです。
これにより、機能に関する不一致を最小限に抑えることが容易になります。
エンドエフェクターのパラメーター、ブリッジングのデモンストレーション、ターゲットの操作。
器用な手で現実世界のシナリオで検証された SparseDFF は、剛体オブジェクトと変形可能なオブジェクトの両方を操作するのに効果的であることが証明され、オブジェクトとシーンのバリエーション全体にわたる重要な一般化機能を実証します。
要約(オリジナル)
Humans demonstrate remarkable skill in transferring manipulation abilities across objects of varying shapes, poses, and appearances, a capability rooted in their understanding of semantic correspondences between different instances. To equip robots with a similar high-level comprehension, we present SparseDFF, a novel DFF for 3D scenes utilizing large 2D vision models to extract semantic features from sparse RGBD images, a domain where research is limited despite its relevance to many tasks with fixed-camera setups. SparseDFF generates view-consistent 3D DFFs, enabling efficient one-shot learning of dexterous manipulations by mapping image features to a 3D point cloud. Central to SparseDFF is a feature refinement network, optimized with a contrastive loss between views and a point-pruning mechanism for feature continuity. This facilitates the minimization of feature discrepancies w.r.t. end-effector parameters, bridging demonstrations and target manipulations. Validated in real-world scenarios with a dexterous hand, SparseDFF proves effective in manipulating both rigid and deformable objects, demonstrating significant generalization capabilities across object and scene variations.
arxiv情報
著者 | Qianxu Wang,Haotong Zhang,Congyue Deng,Yang You,Hao Dong,Yixin Zhu,Leonidas Guibas |
発行日 | 2024-03-18 07:20:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google