3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance

要約

最近の 3D ノベル ビュー合成 (NVS) 手法では、トレーニングに大規模な 3D データが必要になることが多く、また、通常はトレーニング分布を超えた一般化が欠けています。
さらに、オブジェクト中心になる傾向があり、複雑に入り組んだシーンに苦労します。
逆に、3D フリーの方法では、大量の 3D ベースのトレーニング データを必要とせずに、事前トレーニングされた安定した拡散モデルを使用して、複雑な自然のシーンのテキスト制御ビューを生成できますが、カメラ制御がありません。
この論文では、3D フリーのアプローチと 3D ベースのアプローチの利点を組み合わせて、単一の入力画像からカメラ制御の視点を生成できる方法を紹介します。
私たちの方法は、大規模なトレーニングや追加の 3D データやマルチビュー データを必要とせずに、複雑で多様なシーンを処理することに優れています。
これは、弱いガイダンス用に広く利用可能な事前トレーニング済み NVS モデルを活用し、この知識を 3D フリー ビュー合成スタイルのアプローチに統合するとともに、3D カメラ アングル情報で CLIP ビジョン言語空間を強化して、望ましい結果を達成します。
実験結果は、私たちの方法が定性的および定量的評価の両方で既存のモデルよりも優れており、さまざまな視点にわたって正確で自然な詳細表現と画像の鮮明さを維持しながら、さまざまなシーンにわたって希望のカメラ角度で高忠実度で一貫した新しいビュー合成を達成することを示しています。
また、2D 画像生成モデルと 3D 空間の包括的な分析によってこの方法をサポートし、ソリューションに強固な基盤と理論的根拠を提供します。

要約(オリジナル)

Recent 3D novel view synthesis (NVS) methods often require extensive 3D data for training, and also typically lack generalization beyond the training distribution. Moreover, they tend to be object centric and struggle with complex and intricate scenes. Conversely, 3D-free methods can generate text-controlled views of complex, in-the-wild scenes using a pretrained stable diffusion model without the need for a large amount of 3D-based training data, but lack camera control. In this paper, we introduce a method capable of generating camera-controlled viewpoints from a single input image, by combining the benefits of 3D-free and 3D-based approaches. Our method excels in handling complex and diverse scenes without extensive training or additional 3D and multiview data. It leverages widely available pretrained NVS models for weak guidance, integrating this knowledge into a 3D-free view synthesis style approach, along with enriching the CLIP vision-language space with 3D camera angle information, to achieve the desired results. Experimental results demonstrate that our method outperforms existing models in both qualitative and quantitative evaluations, achieving high-fidelity, consistent novel view synthesis at desired camera angles across a wide variety of scenes while maintaining accurate, natural detail representation and image clarity across various viewpoints. We also support our method with a comprehensive analysis of 2D image generation models and the 3D space, providing a solid foundation and rationale for our solution.

arxiv情報

著者 Taewon Kang,Divya Kothandaraman,Dinesh Manocha,Ming C. Lin
発行日 2024-11-27 16:30:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク