MultiDiff: Consistent Novel View Synthesis from a Single Image

要約

単一の RGB 画像からシーンを一貫して新しいビュー合成するための新しいアプローチである MultiDiff を紹介します。
観察されていない領域については複数のもっともらしい説明が存在するため、単一の参照画像から新しいビューを合成するタスクは、本質的に非常に不適切です。
この問題に対処するために、単眼深度予測器とビデオ拡散モデルの形で強力な事前分布を組み込みます。
単眼の深度により、ターゲット ビューのワープされた参照画像に基づいてモデルを調整できるようになり、幾何学的安定性が向上します。
ビデオ拡散プリアは 3D シーンの強力なプロキシを提供し、モデルが生成された画像全体にわたる連続的でピクセル精度の対応を学習できるようにします。
ドリフトやエラーが蓄積しやすい自己回帰画像生成に依存するアプローチとは対照的に、MultiDiff は一連のフレームを共同合成し、大きなカメラの動きを伴う長期的なシーン生成であっても、高品質でマルチビューの一貫した結果をもたらします。
推論時間を一桁短縮します。
一貫性と画質をさらに向上させるために、新しい構造化されたノイズ分布を導入しました。
私たちの実験結果は、MultiDiff が、困難な現実世界のデータセット RealEstate10K および ScanNet に対して最先端の手法よりも優れていることを示しています。
最後に、私たちのモデルは、さらなる調整を必要とせずに、マルチビューの一貫した編集を自然にサポートします。

要約(オリジナル)

We introduce MultiDiff, a novel approach for consistent novel view synthesis of scenes from a single RGB image. The task of synthesizing novel views from a single reference image is highly ill-posed by nature, as there exist multiple, plausible explanations for unobserved areas. To address this issue, we incorporate strong priors in form of monocular depth predictors and video-diffusion models. Monocular depth enables us to condition our model on warped reference images for the target views, increasing geometric stability. The video-diffusion prior provides a strong proxy for 3D scenes, allowing the model to learn continuous and pixel-accurate correspondences across generated images. In contrast to approaches relying on autoregressive image generation that are prone to drifts and error accumulation, MultiDiff jointly synthesizes a sequence of frames yielding high-quality and multi-view consistent results — even for long-term scene generation with large camera movements, while reducing inference time by an order of magnitude. For additional consistency and image quality improvements, we introduce a novel, structured noise distribution. Our experimental results demonstrate that MultiDiff outperforms state-of-the-art methods on the challenging, real-world datasets RealEstate10K and ScanNet. Finally, our model naturally supports multi-view consistent editing without the need for further tuning.

arxiv情報

著者 Norman Müller,Katja Schwarz,Barbara Roessle,Lorenzo Porzi,Samuel Rota Bulò,Matthias Nießner,Peter Kontschieder
発行日 2024-06-26 17:53:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク