要約
単一の画像からの新しいビューの合成は、没入型の体験を提供する多くの仮想現実アプリケーションにとって重要な問題でした。
ただし、ほとんどの既存の技術は、カメラの動きの限られた範囲内でしか新しいビューを合成できないか、大きなカメラの動きの下で一貫した高品質の新しいビューを生成できません。
この作業では、単一の画像から斬新なビューの一貫した長期ビデオを生成するための姿勢誘導拡散モデルを提案します。
エピポーラ線を制約として使用して、異なる視点間の関連付けを容易にする注意層を設計します。
合成および実世界のデータセットに関する実験結果は、最先端のトランスフォーマー ベースおよび GAN ベースのアプローチに対する提案された拡散モデルの有効性を示しています。
要約(オリジナル)
Novel view synthesis from a single image has been a cornerstone problem for many Virtual Reality applications that provide immersive experiences. However, most existing techniques can only synthesize novel views within a limited range of camera motion or fail to generate consistent and high-quality novel views under significant camera movement. In this work, we propose a pose-guided diffusion model to generate a consistent long-term video of novel views from a single image. We design an attention layer that uses epipolar lines as constraints to facilitate the association between different viewpoints. Experimental results on synthetic and real-world datasets demonstrate the effectiveness of the proposed diffusion model against state-of-the-art transformer-based and GAN-based approaches.
arxiv情報
著者 | Hung-Yu Tseng,Qinbo Li,Changil Kim,Suhib Alsisan,Jia-Bin Huang,Johannes Kopf |
発行日 | 2023-03-30 17:59:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google