要約
オブジェクトのレンダリング、3D 再構成、および数秒以内に単一の画像から推測できる把握ポーズ予測のための統一されたコンパクトな表現を提示します。
これは、カテゴリレベルの事前確率を学習し、最小限のデータと時間で新しいオブジェクトを微調整する Neural Radiance Field (NeRF) 文献の最近の進歩を活用することで達成されます。
私たちの洞察は、コンパクトな形状表現を学習し、ポーズの把握など、そこから意味のある追加情報を抽出できるということです。
これは、二次ネットワークや表現を経由するのではなく、単一の視点 (RGB のみ) を使用して、NeRF ベースの表現から直接つかむポーズを取得する最初の作業であると考えています。
従来技術と比較すると、我々の方法は、ビューの再構成および把握において同等の性能を達成しながら、2桁から3桁小さい。
私たちの方法に付随して、さまざまな幅のグリッパーのポーズをつかむことで sim-2-real NeRF メソッドをトレーニングするための、レンダリングされた靴の新しいデータセットも提案します。
要約(オリジナル)
We present a unified and compact representation for object rendering, 3D reconstruction, and grasp pose prediction that can be inferred from a single image within a few seconds. We achieve this by leveraging recent advances in the Neural Radiance Field (NeRF) literature that learn category-level priors and fine-tune on novel objects with minimal data and time. Our insight is that we can learn a compact shape representation and extract meaningful additional information from it, such as grasping poses. We believe this to be the first work to retrieve grasping poses directly from a NeRF-based representation using a single viewpoint (RGB-only), rather than going through a secondary network and/or representation. When compared to prior art, our method is two to three orders of magnitude smaller while achieving comparable performance at view reconstruction and grasping. Accompanying our method, we also propose a new dataset of rendered shoes for training a sim-2-real NeRF method with grasping poses for different widths of grippers.
arxiv情報
著者 | Valts Blukis,Taeyeop Lee,Jonathan Tremblay,Bowen Wen,In So Kweon,Kuk-Jin Yoon,Dieter Fox,Stan Birchfield |
発行日 | 2022-10-21 17:33:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google