DiffRF: Rendering-Guided 3D Radiance Field Diffusion

要約

ノイズ除去拡散確率モデルに基づく 3D 放射輝度場合成の新しいアプローチである DiffRF を紹介します。
既存の拡散ベースの方法は、画像、潜在コード、または点群データで動作しますが、体積放射輝度場を直接生成するのは初めてです。
この目的のために、明示的なボクセル グリッド表現で直接動作する 3D ノイズ除去モデルを提案します。
ただし、一連のポーズ画像から生成された放射輝度フィールドはあいまいでアーティファクトを含む可能性があるため、グラウンド トゥルース放射輝度フィールド サンプルを取得することは自明ではありません。
ノイズ除去の定式化とレンダリング ロスを組み合わせることで、この課題に対処します。これにより、浮動アーティファクトのようなフィッティング エラーを再現しようとするのではなく、良好な画質を優先する逸脱した事前確率をモデルが学習できるようになります。
2D 拡散モデルとは対照的に、私たちのモデルはマルチビューの一貫した事前確率を学習し、フリービュー合成と正確な形状生成を可能にします。
3D GAN と比較して、私たちの拡散ベースのアプローチは、推論時にマスクされた補完やシングルビュー 3D 合成などの条件付き生成を自然に可能にします。

要約(オリジナル)

We introduce DiffRF, a novel approach for 3D radiance field synthesis based on denoising diffusion probabilistic models. While existing diffusion-based methods operate on images, latent codes, or point cloud data, we are the first to directly generate volumetric radiance fields. To this end, we propose a 3D denoising model which directly operates on an explicit voxel grid representation. However, as radiance fields generated from a set of posed images can be ambiguous and contain artifacts, obtaining ground truth radiance field samples is non-trivial. We address this challenge by pairing the denoising formulation with a rendering loss, enabling our model to learn a deviated prior that favours good image quality instead of trying to replicate fitting errors like floating artifacts. In contrast to 2D-diffusion models, our model learns multi-view consistent priors, enabling free-view synthesis and accurate shape generation. Compared to 3D GANs, our diffusion-based approach naturally enables conditional generation such as masked completion or single-view 3D synthesis at inference time.

arxiv情報

著者 Norman Müller,Yawar Siddiqui,Lorenzo Porzi,Samuel Rota Bulò,Peter Kontschieder,Matthias Nießner
発行日 2023-03-27 14:51:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク