Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance

要約

最近の 3D ノベル ビュー合成 (NVS) 手法は、新しい視点から生成される単一オブジェクト中心のシーンに限定されており、複雑な環境に対応するのに苦労しています。
多くの場合、トレーニングには大規模な 3D データが必要ですが、トレーニングの配布を超える一般化が欠けています。
逆に、3D フリーの方法では、面倒な微調整を行わずに、事前トレーニングされた安定した拡散モデルを使用して、複雑な自然のシーンのテキスト制御ビューを生成できますが、カメラ制御がありません。
この論文では、単一の入力画像からカメラ制御の視点を生成できる方法である HawkI++ を紹介します。
HawkI++ は、追加の 3D データや広範なトレーニングを必要とせずに、複雑で多様なシーンを処理することに優れています。
弱いガイダンスには広く利用可能な事前トレーニング済み NVS モデルを活用し、この知識を 3D フリーのビュー合成アプローチに統合して、目的の結果を効率的に達成します。
私たちの実験結果は、HawkI++ が定性的評価と定量的評価の両方で既存のモデルを上回っており、さまざまなシーンにわたって希望のカメラ角度で高忠実度で一貫した新しいビュー合成を提供することを示しています。

要約(オリジナル)

Recent 3D novel view synthesis (NVS) methods are limited to single-object-centric scenes generated from new viewpoints and struggle with complex environments. They often require extensive 3D data for training, lacking generalization beyond training distribution. Conversely, 3D-free methods can generate text-controlled views of complex, in-the-wild scenes using a pretrained stable diffusion model without tedious fine-tuning, but lack camera control. In this paper, we introduce HawkI++, a method capable of generating camera-controlled viewpoints from a single input image. HawkI++ excels in handling complex and diverse scenes without additional 3D data or extensive training. It leverages widely available pretrained NVS models for weak guidance, integrating this knowledge into a 3D-free view synthesis approach to achieve the desired results efficiently. Our experimental results demonstrate that HawkI++ outperforms existing models in both qualitative and quantitative evaluations, providing high-fidelity and consistent novel view synthesis at desired camera angles across a wide variety of scenes.

arxiv情報

著者 Taewon Kang,Divya Kothandaraman,Dinesh Manocha,Ming C. Lin
発行日 2024-08-12 13:53:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク