要約
単一の画像からの新しいビューの合成には、入力との意味的および物理的な一貫性を同時に維持しながら、オブジェクトとシーンの遮られた領域を推測する必要があります。
既存のアプローチは、局所的な画像特徴に対して神経放射輝度場 (NeRF) を調整し、点を入力画像平面に投影し、2D 特徴を集約してボリューム レンダリングを実行します。
ただし、重度の閉塞下では、この投影は不確実性を解決できず、詳細が欠けたぼやけたレンダリングになります。
この作業では、NerfDiff を提案します。NerfDiff は、テスト時に一連の仮想ビューを合成および改良することにより、3D 対応の条件付き拡散モデル (CDM) の知識を NeRF に抽出することで、この問題に対処します。
さらに、CDMサンプルから一貫した3D仮想ビューを同時に生成し、改善された仮想ビューに基づいてNeRFを微調整する、新しいNeRFガイド付き蒸留アルゴリズムを提案します。
私たちのアプローチは、ShapeNet、ABO、Clevr3D などの困難なデータセットに対する既存の NeRF ベースでジオメトリを使用しないアプローチよりも大幅に優れています。
要約(オリジナル)
Novel view synthesis from a single image requires inferring occluded regions of objects and scenes whilst simultaneously maintaining semantic and physical consistency with the input. Existing approaches condition neural radiance fields (NeRF) on local image features, projecting points to the input image plane, and aggregating 2D features to perform volume rendering. However, under severe occlusion, this projection fails to resolve uncertainty, resulting in blurry renderings that lack details. In this work, we propose NerfDiff, which addresses this issue by distilling the knowledge of a 3D-aware conditional diffusion model (CDM) into NeRF through synthesizing and refining a set of virtual views at test time. We further propose a novel NeRF-guided distillation algorithm that simultaneously generates 3D consistent virtual views from the CDM samples, and finetunes the NeRF based on the improved virtual views. Our approach significantly outperforms existing NeRF-based and geometry-free approaches on challenging datasets, including ShapeNet, ABO, and Clevr3D.
arxiv情報
著者 | Jiatao Gu,Alex Trevithick,Kai-En Lin,Josh Susskind,Christian Theobalt,Lingjie Liu,Ravi Ramamoorthi |
発行日 | 2023-02-20 17:12:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google