Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation

要約

自己教師ありおよび言語教師ありの画像モデルには、一般化にとって重要な世界に関する豊富な知識が含まれています。
ただし、多くのロボット タスクでは 3D ジオメトリを詳細に理解する必要があり、多くの場合 2D 画像の特徴が不足しています。
この研究では、抽出されたフィーチャ フィールドを活用して、正確な 3D ジオメトリと 2D 基盤モデルの豊富なセマンティクスを組み合わせることで、ロボット操作における 2D から 3D へのギャップを橋渡しします。
我々は、これらの強力な空間的および意味論的事前分布を利用して、目に見えないオブジェクトに対する実際の一般化を達成する、6-DOF の把握と配置のための数ショット学習方法を提案します。
視覚言語モデルである CLIP から抽出された機能を使用して、フリーテキストの自然言語による操作のために新しいオブジェクトを指定する方法を提示し、目に見えない表現やオブジェクトの新しいカテゴリに一般化する能力を実証します。

要約(オリジナル)

Self-supervised and language-supervised image models contain rich knowledge of the world that is important for generalization. Many robotic tasks, however, require a detailed understanding of 3D geometry, which is often lacking in 2D image features. This work bridges this 2D-to-3D gap for robotic manipulation by leveraging distilled feature fields to combine accurate 3D geometry with rich semantics from 2D foundation models. We present a few-shot learning method for 6-DOF grasping and placing that harnesses these strong spatial and semantic priors to achieve in-the-wild generalization to unseen objects. Using features distilled from a vision-language model, CLIP, we present a way to designate novel objects for manipulation via free-text natural language, and demonstrate its ability to generalize to unseen expressions and novel categories of objects.

arxiv情報

著者 William Shen,Ge Yang,Alan Yu,Jansen Wong,Leslie Pack Kaelbling,Phillip Isola
発行日 2023-12-30 01:10:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO パーマリンク