要約
タイトル:単一画像から継続的なニューラルシーン表現を生成するニューラルグラウンドプラン
要約:
– 単一のシーンの2D画像観察を3Dの継続的なシーン表現にマッピングする方法を提案する。
– 新しい視点合成やシーンの可動性と不可動性の構成要素の分離表現を可能にする。
– ビジョンとロボットによく使われる鳥瞰図(BEV)表現に着想を得て、条件付きニューラルグラウンドプランを提案する。この方法は、他の多様な観察から自己教師ありでトレーニングされ、微分可能なレンダリングを使用してジオメトリと外観を完了し、遮蔽領域を復元することを学ぶ。
– さらに、トレーニング時にマルチビュー動画を利用して、テスト時に単一の画像からシーンの静止物と動的物を別々に再構成することを学ぶことができる。
– 変更可能なオブジェクトを別々に再構成できる能力は、オブジェクト中心の3D表現、新しい視点合成、インスタンスレベルのセグメンテーション、3Dバウンディングボックス予測、およびシーン編集など、様々な下流タスクを可能にする。
– ニューラルグラウンドプランは、効率的な3Dシーン理解モデルのバックボーンとして優れていることが示されている。
要約(オリジナル)
We present a method to map 2D image observations of a scene to a persistent 3D scene representation, enabling novel view synthesis and disentangled representation of the movable and immovable components of the scene. Motivated by the bird’s-eye-view (BEV) representation commonly used in vision and robotics, we propose conditional neural groundplans, ground-aligned 2D feature grids, as persistent and memory-efficient scene representations. Our method is trained self-supervised from unlabeled multi-view observations using differentiable rendering, and learns to complete geometry and appearance of occluded regions. In addition, we show that we can leverage multi-view videos at training time to learn to separately reconstruct static and movable components of the scene from a single image at test time. The ability to separately reconstruct movable objects enables a variety of downstream tasks using simple heuristics, such as extraction of object-centric 3D representations, novel view synthesis, instance-level segmentation, 3D bounding box prediction, and scene editing. This highlights the value of neural groundplans as a backbone for efficient 3D scene understanding models.
arxiv情報
著者 | Prafull Sharma,Ayush Tewari,Yilun Du,Sergey Zakharov,Rares Ambrus,Adrien Gaidon,William T. Freeman,Fredo Durand,Joshua B. Tenenbaum,Vincent Sitzmann |
発行日 | 2023-04-10 00:49:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI