ObPose: Leveraging Canonical Pose for Object-Centric Scene Inference in 3D

要約

ObPoseは、RGB-Dビデオからの3Dオブジェクトのセグメント化を教師無しで学習する、オブジェクト中心型の生成モデルである。2次元表現学習の先行技術にヒントを得て、ObPoseは因子化された潜在空間を考慮し、オブジェクトごとの位置(どこ)と外観(何)の情報を個別に符号化する。特に、ObPoseは、最小体積原理によって定義されるオブジェクトの正準姿勢を、where成分を学習するための新しい帰納的バイアスとして活用する。そのために、我々は神経輝度場(NeRF)から直接物体の形状を復元する効率的なボクセル化近似手法を提案する。その結果、ObPoseはシーンを個々のオブジェクトを表すNeRFの構成としてモデル化する。教師なしシーンセグメンテーションのためのYCBデータセットで評価したところ、ObPoseは、ビデオ入力とマルチビュー静止シーンの両方において、現在の3Dシーン推論の最先端技術(ObsuRF)よりもセグメンテーション品質で大きく上回っています。さらに、ObPoseのエンコーダで行われた設計上の選択は、関連するアブレーションで検証されています。

要約(オリジナル)

We present ObPose, an unsupervised object-centric generative model that learns to segment 3D objects from RGB-D video in an unsupervised manner. Inspired by prior art in 2D representation learning, ObPose considers a factorised latent space, separately encoding object-wise location (where) and appearance (what) information. In particular, ObPose leverages an object’s canonical pose, defined via a minimum volume principle, as a novel inductive bias for learning the where component. To achieve this, we propose an efficient, voxelised approximation approach to recover the object shape directly from a neural radiance field (NeRF). As a consequence, ObPose models scenes as compositions of NeRFs representing individual objects. When evaluated on the YCB dataset for unsupervised scene segmentation, ObPose outperforms the current state-of-the-art in 3D scene inference (ObSuRF) by a significant margin in terms of segmentation quality for both video inputs as well as for multi-view static scenes. In addition, the design choices made in the ObPose encoder are validated with relevant ablations.

arxiv情報

著者 Yizhe Wu,Oiwi Parker Jones,Ingmar Posner
発行日 2022-06-07 21:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T07, cs.AI, cs.CV パーマリンク