DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction Model

要約

私たちは、トランスフォーマーベースの 3D 大規模再構成モデ​​ルを使用してマルチビュー拡散のノイズを除去する新しい 3D 生成アプローチである \textbf{DMV3D} を提案します。
私たちの再構築モデルにはトリプレーン NeRF 表現が組み込まれており、NeRF 再構築とレンダリングを介してノイズの多いマルチビュー画像のノイズを除去でき、単一の A100 GPU で $\sim$30 秒でシングルステージ 3D 生成を実現します。
3D アセットにアクセスせずに、画像再構成損失のみを使用して、非常に多様なオブジェクトの大規模なマルチビュー画像データセットに対して \textbf{DMV3D} をトレーニングします。
我々は、鮮明なテクスチャを備えた多様な再構成を生成するために、目に見えないオブジェクト部分の確率的モデリングが必要な単一画像再構成問題に対する最先端の結果を実証します。
また、以前の 3D 拡散モデルを上回る高品質のテキストから 3D への生成結果も示しています。
私たちのプロジェクトの Web サイトは、https://justimyhxu.github.io/projects/dmv3d/ にあります。

要約(オリジナル)

We propose \textbf{DMV3D}, a novel 3D generation approach that uses a transformer-based 3D large reconstruction model to denoise multi-view diffusion. Our reconstruction model incorporates a triplane NeRF representation and can denoise noisy multi-view images via NeRF reconstruction and rendering, achieving single-stage 3D generation in $\sim$30s on single A100 GPU. We train \textbf{DMV3D} on large-scale multi-view image datasets of highly diverse objects using only image reconstruction losses, without accessing 3D assets. We demonstrate state-of-the-art results for the single-image reconstruction problem where probabilistic modeling of unseen object parts is required for generating diverse reconstructions with sharp textures. We also show high-quality text-to-3D generation results outperforming previous 3D diffusion models. Our project website is at: https://justimyhxu.github.io/projects/dmv3d/ .

arxiv情報

著者 Yinghao Xu,Hao Tan,Fujun Luan,Sai Bi,Peng Wang,Jiahao Li,Zifan Shi,Kalyan Sunkavalli,Gordon Wetzstein,Zexiang Xu,Kai Zhang
発行日 2023-11-15 18:58:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク