GD^2-NeRF: Generative Detail Compensation via GAN and Diffusion for One-shot Generalizable Neural Radiance Fields

要約

この論文では、シーンごとに参照画像を 1 つだけ与えてフォトリアリスティックな新しいビューを合成することを目的としたワンショット ノベル ビュー合成 (O-NVS) タスクに焦点を当てます。
以前のワンショット一般化可能ニューラル放射フィールド (OG-NeRF) メソッドは、推論時間の微調整を必要としない方法でこのタスクを解決しますが、限られた参照画像に大きく依存するエンコーダーのみのアーキテクチャにより、ぼやける問題が発生します。
一方、最近の拡散ベースの画像から 3D への手法は、事前トレーニングされた 2D 拡散モデルを 3D 表現に蒸留することにより、鮮やかでもっともらしい結果を示しますが、シーンごとの面倒な最適化が必要です。
これらの問題をターゲットとして、私たちは GD$^2$-NeRF を提案します。これは、推論時間の微調整が不要で、鮮やかでもっともらしい詳細を備えた GAN と拡散による生成詳細補償フレームワークです。
詳細には、粗いものから細かいものへの戦略に従って、GD$^2$-NeRF は主に 1 ステージの並列パイプライン (OPP) と 3D 一貫性のあるディテール エンハンサー (Diff3DE) で構成されています。
粗い段階では、OPP はまず GAN モデルを既存の OG-NeRF パイプラインに効率的に挿入し、主にトレーニング データセットからキャプチャされた分布内事前分布の不鮮明な問題を軽減し、鮮明さ (LPIPS、FID) と忠実度の間の良好なバランスを実現します (
PSNR、SSIM)。
その後、細かい段階で、Diff3DE は事前トレーニングされた画像拡散モデルをさらに活用して、適切な 3D 一貫性を維持しながら、豊富なアウトディストリビューションの詳細を補完します。
合成データセットと現実世界のデータセットの両方に対する広範な実験により、GD$^2$-NeRF がシーンごとの微調整を行わずに詳細を著しく改善することが示されました。

要約(オリジナル)

In this paper, we focus on the One-shot Novel View Synthesis (O-NVS) task which targets synthesizing photo-realistic novel views given only one reference image per scene. Previous One-shot Generalizable Neural Radiance Fields (OG-NeRF) methods solve this task in an inference-time finetuning-free manner, yet suffer the blurry issue due to the encoder-only architecture that highly relies on the limited reference image. On the other hand, recent diffusion-based image-to-3d methods show vivid plausible results via distilling pre-trained 2D diffusion models into a 3D representation, yet require tedious per-scene optimization. Targeting these issues, we propose the GD$^2$-NeRF, a Generative Detail compensation framework via GAN and Diffusion that is both inference-time finetuning-free and with vivid plausible details. In detail, following a coarse-to-fine strategy, GD$^2$-NeRF is mainly composed of a One-stage Parallel Pipeline (OPP) and a 3D-consistent Detail Enhancer (Diff3DE). At the coarse stage, OPP first efficiently inserts the GAN model into the existing OG-NeRF pipeline for primarily relieving the blurry issue with in-distribution priors captured from the training dataset, achieving a good balance between sharpness (LPIPS, FID) and fidelity (PSNR, SSIM). Then, at the fine stage, Diff3DE further leverages the pre-trained image diffusion models to complement rich out-distribution details while maintaining decent 3D consistency. Extensive experiments on both the synthetic and real-world datasets show that GD$^2$-NeRF noticeably improves the details while without per-scene finetuning.

arxiv情報

著者 Xiao Pan,Zongxin Yang,Shuai Bai,Yi Yang
発行日 2024-01-02 13:47:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク