Seeing 3D Objects in a Single Image via Self-Supervised Static-Dynamic Disentanglement

要約

人間の知覚は、3Dシーンの可動部分と不動部分を確実に識別し、不完全な観察からオブジェクトと背景の3D構造を完成させます。
このスキルは、ラベルの付いた例ではなく、オブジェクトの動きを観察するだけで習得できます。
この作業では、トレーニング時にラベルのないマルチビュービデオを観察し、車のある通りなどの複雑なシーンの単一画像観察を、可動式と解きほぐされた3Dニューラルシーン表現にマッピングする方法を提案します。
その3D構造をもっともらしく完成させながら動かせない部品。
2Dニューラルグラウンドプランを介して、可動シーンパーツと不動シーンパーツを別々にパラメータ化します。
これらの平面図は、3D神経放射輝度フィールドにローカルにデコードできる、地面に位置合わせされたフィーチャの2Dグリッドです。
私たちのモデルは、ニューラルレンダリングを介して自己監視でトレーニングされています。
解きほぐされた3D表現に固有の構造により、オブジェクト中心の3D表現の抽出、新しいビュー合成、インスタンスセグメンテーション、3Dバウンディングボックス予測などの単純なヒューリスティックを使用して、ストリートスケールの3Dシーンでさまざまなダウンストリームタスクが可能になることを示します。
データ効率の高い3Dシーン理解モデルのバックボーンとしてのその価値を強調しています。
この解きほぐしにより、削除、挿入、剛体モーションなどのオブジェクト操作によるシーン編集がさらに可能になります。

要約(オリジナル)

Human perception reliably identifies movable and immovable parts of 3D scenes, and completes the 3D structure of objects and background from incomplete observations. We learn this skill not via labeled examples, but simply by observing objects move. In this work, we propose an approach that observes unlabeled multi-view videos at training time and learns to map a single image observation of a complex scene, such as a street with cars, to a 3D neural scene representation that is disentangled into movable and immovable parts while plausibly completing its 3D structure. We separately parameterize movable and immovable scene parts via 2D neural ground plans. These ground plans are 2D grids of features aligned with the ground plane that can be locally decoded into 3D neural radiance fields. Our model is trained self-supervised via neural rendering. We demonstrate that the structure inherent to our disentangled 3D representation enables a variety of downstream tasks in street-scale 3D scenes using simple heuristics, such as extraction of object-centric 3D representations, novel view synthesis, instance segmentation, and 3D bounding box prediction, highlighting its value as a backbone for data-efficient 3D scene understanding models. This disentanglement further enables scene editing via object manipulation such as deletion, insertion, and rigid-body motion.

arxiv情報

著者 Prafull Sharma,Ayush Tewari,Yilun Du,Sergey Zakharov,Rares Ambrus,Adrien Gaidon,William T. Freeman,Fredo Durand,Joshua B. Tenenbaum,Vincent Sitzmann
発行日 2022-07-22 17:41:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG パーマリンク