GenWarp: Single Image to Novel Views with Semantic-Preserving Generative Warping

要約

3D シーンの複雑さと、モデルをトレーニングする既存のマルチビュー データセットの多様性が限られているため、単一の画像から新しいビューを生成することは依然として困難な作業です。
大規模なテキストから画像への変換 (T2I) モデルと単眼深度推定 (MDE) を組み合わせた最近の研究では、実際の画像の処理に有望であることが示されています。
これらの方法では、入力ビューが推定された深度マップを使用して新しいビューに幾何学的にワープされ、次にワープされたイメージが T2I モデルによって修復されます。
ただし、入力ビューを新しい視点にワープするときに、ノイズの多い深度マップと意味論的な詳細の損失に苦労します。
この論文では、シングルショットの新しいビュー合成のための新しいアプローチを提案します。これは、セルフアテンションでクロスビューの注意を強化することによって、T2I 生成モデルがどこにワープするか、どこに生成するかを学習できるようにする意味を保持する生成ワーピング フレームワークです。
私たちのアプローチは、ソースビュー画像に基づいて生成モデルを調整し、幾何学的なワーピング信号を組み込むことによって、既存の方法の制限に対処します。
定性的および定量的評価は、私たちのモデルがドメイン内シナリオとドメイン外シナリオの両方で既存の手法よりも優れていることを示しています。
プロジェクトページは https://GenWarp-NVS.github.io/ から入手できます。

要約(オリジナル)

Generating novel views from a single image remains a challenging task due to the complexity of 3D scenes and the limited diversity in the existing multi-view datasets to train a model on. Recent research combining large-scale text-to-image (T2I) models with monocular depth estimation (MDE) has shown promise in handling in-the-wild images. In these methods, an input view is geometrically warped to novel views with estimated depth maps, then the warped image is inpainted by T2I models. However, they struggle with noisy depth maps and loss of semantic details when warping an input view to novel viewpoints. In this paper, we propose a novel approach for single-shot novel view synthesis, a semantic-preserving generative warping framework that enables T2I generative models to learn where to warp and where to generate, through augmenting cross-view attention with self-attention. Our approach addresses the limitations of existing methods by conditioning the generative model on source view images and incorporating geometric warping signals. Qualitative and quantitative evaluations demonstrate that our model outperforms existing methods in both in-domain and out-of-domain scenarios. Project page is available at https://GenWarp-NVS.github.io/.

arxiv情報

著者 Junyoung Seo,Kazumi Fukuda,Takashi Shibuya,Takuya Narihira,Naoki Murata,Shoukang Hu,Chieh-Hsin Lai,Seungryong Kim,Yuki Mitsufuji
発行日 2024-05-27 15:07:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク