要約
3D 対応の画像合成には、画像からのシーン生成や新しいビューの合成など、さまざまなタスクが含まれます。
タスク固有の手法は数多くありますが、包括的なモデルを開発することは依然として困難です。
この論文では、表現力豊かな拡散モデルを使用して、さまざまな物体の多視点画像から神経放射輝度場 (NeRF) の一般化可能な事前分布を学習する統合アプローチである SSDNeRF を紹介します。
これまでの研究では、拡散モデルをトレーニングするための実データとして事前トレーニングされた NeRF に依存する 2 段階のアプローチが使用されてきました。
対照的に、我々は、NeRF 自動デコーダと潜在拡散モデルを共同で最適化し、まばらに利用可能なビューからでも 3D 再構成と事前学習を同時に可能にする、エンドツーエンドの目的を備えた新しい単一段階トレーニング パラダイムを提案します。
テスト時には、無条件生成のために事前に拡散を直接サンプリングしたり、NeRF 再構成のために目に見えないオブジェクトの任意の観測値と組み合わせたりすることができます。
SSDNeRF は、無条件生成およびシングル/スパース ビュー 3D 再構成において、主要なタスク固有の手法と同等またはそれ以上の堅牢な結果を示します。
要約(オリジナル)
3D-aware image synthesis encompasses a variety of tasks, such as scene generation and novel view synthesis from images. Despite numerous task-specific methods, developing a comprehensive model remains challenging. In this paper, we present SSDNeRF, a unified approach that employs an expressive diffusion model to learn a generalizable prior of neural radiance fields (NeRF) from multi-view images of diverse objects. Previous studies have used two-stage approaches that rely on pretrained NeRFs as real data to train diffusion models. In contrast, we propose a new single-stage training paradigm with an end-to-end objective that jointly optimizes a NeRF auto-decoder and a latent diffusion model, enabling simultaneous 3D reconstruction and prior learning, even from sparsely available views. At test time, we can directly sample the diffusion prior for unconditional generation, or combine it with arbitrary observations of unseen objects for NeRF reconstruction. SSDNeRF demonstrates robust results comparable to or better than leading task-specific methods in unconditional generation and single/sparse-view 3D reconstruction.
arxiv情報
著者 | Hansheng Chen,Jiatao Gu,Anpei Chen,Wei Tian,Zhuowen Tu,Lingjie Liu,Hao Su |
発行日 | 2023-08-25 14:36:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google