RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and Generation

要約

【タイトル】「RenderDiffusion: 3D再構築、インペインティング、生成のための画像拡散」

【要約】
– 拡散モデルは、現在の条件付きおよび非条件付きの画像生成において最先端のパフォーマンスを発揮しています。
– しかし、現在の画像拡散モデルは、ビュー一致した3D生成や単一ビュー物体再構築など、3D理解に必要なタスクをサポートしていません。
– 本論文では、2D監視のみを使用してトレーニングされた、3D生成と推論のための最初の拡散モデル、RenderDiffusionを紹介します。
– 中心となるのは、各ノイズ低減ステップでシーンの中間三次元表現を生成しレンダリングする新しい画像除去アーキテクチャです。
– これにより、3D一貫した表現が強制され、2D監視のみを必要としながら、3Dの生成ができます。生成された3D表現は、どのビューからでもレンダリングできます。
– FFHQ、AFHQ、ShapeNet、CLEVRデータセットでRenderDiffusionを評価し、3Dシーンの生成と2D画像からの3Dシーンの推論において競争力のある性能を示しました。
– さらに、私たちの拡散ベースのアプローチにより、2Dインペインティングを使用して3Dシーンを編集することができます。

要約(オリジナル)

Diffusion models currently achieve state-of-the-art performance for both conditional and unconditional image generation. However, so far, image diffusion models do not support tasks required for 3D understanding, such as view-consistent 3D generation or single-view object reconstruction. In this paper, we present RenderDiffusion, the first diffusion model for 3D generation and inference, trained using only monocular 2D supervision. Central to our method is a novel image denoising architecture that generates and renders an intermediate three-dimensional representation of a scene in each denoising step. This enforces a strong inductive structure within the diffusion process, providing a 3D consistent representation while only requiring 2D supervision. The resulting 3D representation can be rendered from any view. We evaluate RenderDiffusion on FFHQ, AFHQ, ShapeNet and CLEVR datasets, showing competitive performance for generation of 3D scenes and inference of 3D scenes from 2D images. Additionally, our diffusion-based approach allows us to use 2D inpainting to edit 3D scenes.

arxiv情報

著者 Titas Anciukevicius,Zexiang Xu,Matthew Fisher,Paul Henderson,Hakan Bilen,Niloy J. Mitra,Paul Guerrero
発行日 2023-04-21 12:45:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク