MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation

要約

我々はMVD-Fusionを発表する。MVD-Fusionは、マルチビューで整合性のあるRGB-D画像の生成的モデリングにより、シングルビューの3D推論を行う手法である。3D推論を追求する最近の手法は、ノベルビューの生成モデルを学習することを提唱しているが、これらの世代は3D一貫性がなく、3D出力を生成するために蒸留プロセスを必要とする。我々はその代わりに、3D推論のタスクを、相互に一貫性のある複数のビューを直接生成することとして設定し、さらに奥行きを推論することで、この一貫性を強制するメカニズムを提供できるという洞察に基づいている。具体的には、1つのRGB入力画像からマルチビューのRGB-D画像を生成するノイズ除去拡散モデルを訓練し、(中間的なノイズを含む)奥行き推定値を活用して、マルチビューの一貫性を維持するための再投影ベースの条件付けを得る。我々は、大規模な合成データセットObajverseと、一般的なカメラの視点から構成される実世界のCO3Dデータセットを用いてモデルを訓練する。我々は、蒸留ベースの3D推論や先行するマルチビュー生成法を含む最近の最先端技術と比較して、我々のアプローチがより正確な合成をもたらすことを実証する。また、我々の多視点奥行き予測によって誘導されるジオメトリを評価し、他の直接的な3D推論アプローチよりも正確な表現が得られることを見出した。

要約(オリジナル)

We present MVD-Fusion: a method for single-view 3D inference via generative modeling of multi-view-consistent RGB-D images. While recent methods pursuing 3D inference advocate learning novel-view generative models, these generations are not 3D-consistent and require a distillation process to generate a 3D output. We instead cast the task of 3D inference as directly generating mutually-consistent multiple views and build on the insight that additionally inferring depth can provide a mechanism for enforcing this consistency. Specifically, we train a denoising diffusion model to generate multi-view RGB-D images given a single RGB input image and leverage the (intermediate noisy) depth estimates to obtain reprojection-based conditioning to maintain multi-view consistency. We train our model using large-scale synthetic dataset Obajverse as well as the real-world CO3D dataset comprising of generic camera viewpoints. We demonstrate that our approach can yield more accurate synthesis compared to recent state-of-the-art, including distillation-based 3D inference and prior multi-view generation methods. We also evaluate the geometry induced by our multi-view depth prediction and find that it yields a more accurate representation than other direct 3D inference approaches.

arxiv情報

著者 Hanzhe Hu,Zhizhuo Zhou,Varun Jampani,Shubham Tulsiani
発行日 2024-04-04 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク