Single-view 3D Scene Reconstruction with High-fidelity Shape and Texture

要約

シングルビュー画像から詳細な 3D シーンを再構成することは、幾何学的形状の回復に主に焦点を当てている既存のアプローチの限界により、依然として困難な作業であり、オブジェクトの外観や微細な形状の詳細が見落とされています。
これらの課題に対処するために、単一ビュー画像からオブジェクトの形状とテクスチャを同時に高忠実度で復元するための新しいフレームワークを提案します。
私たちのアプローチでは、提案されたシングルビュー ニューラル暗黙的形状および放射フィールド (SSR) 表現を利用して、明示的な 3D 形状監視と、色、深度、および表面法線画像のボリューム レンダリングの両方を活用します。
部分観察による形状と外観の曖昧さを克服するために、3D と 2D の両方の監督を組み込んだ 2 段階の学習カリキュラムを導入します。
私たちのフレームワークの特徴は、レンダリング機能を単一ビューの 3D 再構築モデルにシームレスに統合しながら、きめの細かいテクスチャ メッシュを生成できることです。
この統合により、テクスチャ付き 3D オブジェクトの再構成が 3D-FRONT データセットで 27.7%、Pix3D データセットで 11.6% 向上するだけでなく、新しい視点からの画像のレンダリングもサポートされます。
私たちのアプローチは、個々のオブジェクトを超えて、オブジェクトレベルの表現を柔軟なシーン表現に合成することを容易にし、それによって全体的なシーンの理解や 3D シーン編集などのアプリケーションを可能にします。
私たちは、この方法の有効性を実証するために広範な実験を実施します。

要約(オリジナル)

Reconstructing detailed 3D scenes from single-view images remains a challenging task due to limitations in existing approaches, which primarily focus on geometric shape recovery, overlooking object appearances and fine shape details. To address these challenges, we propose a novel framework for simultaneous high-fidelity recovery of object shapes and textures from single-view images. Our approach utilizes the proposed Single-view neural implicit Shape and Radiance field (SSR) representations to leverage both explicit 3D shape supervision and volume rendering of color, depth, and surface normal images. To overcome shape-appearance ambiguity under partial observations, we introduce a two-stage learning curriculum incorporating both 3D and 2D supervisions. A distinctive feature of our framework is its ability to generate fine-grained textured meshes while seamlessly integrating rendering capabilities into the single-view 3D reconstruction model. This integration enables not only improved textured 3D object reconstruction by 27.7% and 11.6% on the 3D-FRONT and Pix3D datasets, respectively, but also supports the rendering of images from novel viewpoints. Beyond individual objects, our approach facilitates composing object-level representations into flexible scene representations, thereby enabling applications such as holistic scene understanding and 3D scene editing. We conduct extensive experiments to demonstrate the effectiveness of our method.

arxiv情報

著者 Yixin Chen,Junfeng Ni,Nan Jiang,Yaowei Zhang,Yixin Zhu,Siyuan Huang
発行日 2023-11-01 11:46:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク