VI3DRM:Towards meticulous 3D Reconstruction from Sparse Views via Photo-Realistic Novel View Synthesis

要約

最近では、Zero-1-2-3 のような手法が単一ビュー ベースの 3D 再構成に焦点を当てており、目覚ましい成功を収めています。
ただし、目に見えない領域に関する予測は、大規模な事前学習済み拡散モデルの帰納的バイアスに大きく依存しています。
DreamComposer などの後続の研究では、追加のビューを組み込むことで予測をより制御しやすくしようとしていますが、照明、素材、構造などの要素を含むバニラの潜在空間の特徴のもつれにより、結果は依然として非現実的です。
これらの問題に対処するために、ID が一貫し、遠近法が解かれた 3D 潜在空間内で動作する、拡散ベースのスパース ビュー 3D 再構成モデ​​ルである Visual Isotropy 3D Reconstruction Model (VI3DRM) を導入します。
VI3DRM は、セマンティック情報、色、材質特性、照明のもつれを解くことを容易にすることで、実際の写真と区別できない非常にリアルな画像を生成できます。
実際の画像と合成画像の両方を活用することで、私たちのアプローチはポイントマップの正確な構築を可能にし、最終的にはきめの細かいメッシュや点群を生成します。
GSO データセットでテストされた NVS タスクでは、VI3DRM は最先端の手法 DreamComposer を大幅に上回り、PSNR 38.61、SSIM 0.929、LPIPS 0.027 を達成しました。
コードは公開され次第利用可能になります。

要約(オリジナル)

Recently, methods like Zero-1-2-3 have focused on single-view based 3D reconstruction and have achieved remarkable success. However, their predictions for unseen areas heavily rely on the inductive bias of large-scale pretrained diffusion models. Although subsequent work, such as DreamComposer, attempts to make predictions more controllable by incorporating additional views, the results remain unrealistic due to feature entanglement in the vanilla latent space, including factors such as lighting, material, and structure. To address these issues, we introduce the Visual Isotropy 3D Reconstruction Model (VI3DRM), a diffusion-based sparse views 3D reconstruction model that operates within an ID consistent and perspective-disentangled 3D latent space. By facilitating the disentanglement of semantic information, color, material properties and lighting, VI3DRM is capable of generating highly realistic images that are indistinguishable from real photographs. By leveraging both real and synthesized images, our approach enables the accurate construction of pointmaps, ultimately producing finely textured meshes or point clouds. On the NVS task, tested on the GSO dataset, VI3DRM significantly outperforms state-of-the-art method DreamComposer, achieving a PSNR of 38.61, an SSIM of 0.929, and an LPIPS of 0.027. Code will be made available upon publication.

arxiv情報

著者 Hao Chen,Jiafu Wu,Ying Jin,Jinlong Peng,Xiaofeng Mao,Mingmin Chi,Mufeng Yao,Bo Peng,Jian Li,Yun Cao
発行日 2024-09-12 16:47:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク