Long-Term Photometric Consistent Novel View Synthesis with Diffusion Models

要約

【タイトル】拡散モデルを用いた長期的な光度計を一貫した物体新規視角の合成

【要約】

– 1枚の入力画像から新たな視角を生成することは困難である。このため、多様な新規視角の出力を捉えるために創造的モデルを用いることが魅力的である。
– 本論文では、指定されたカメラ軌跡と単一の開始画像に一致する写真的な画像のシーケンスを生成するモデルを提案する。
– このモデルは、幾何的に一貫性のある、可視の場面要素を補間し、視野外の未見領域を外挿するための条件付け自己回帰的な拡散モデルに焦点を当てている。
– カメラからの1つの視点を捉える単一の画像と新しいカメラ視点の(相対的な)ポーズに限定される。
– 生成された視点のシーケンスの一貫性を測定するために、新しい指標である、閾値付き対称エピポーラ距離(TSED)を導入する。
– 以前の研究では高品質の画像と一貫した意味を、視点ペアに渡って示していた。しかし、我々の導入した尺度であるTSEDを用いて、彼らが望ましいカメラの位置合わせと一致しないことを実証する。
– それに対して、我々の手法は写真的で、視覚的に一貫した画像を生成することができる。

要約(オリジナル)

Novel view synthesis from a single input image is a challenging task, where the goal is to generate a new view of a scene from a desired camera pose that may be separated by a large motion. The highly uncertain nature of this synthesis task due to unobserved elements within the scene (i.e., occlusion) and outside the field-of-view makes the use of generative models appealing to capture the variety of possible outputs. In this paper, we propose a novel generative model which is capable of producing a sequence of photorealistic images consistent with a specified camera trajectory, and a single starting image. Our approach is centred on an autoregressive conditional diffusion-based model capable of interpolating visible scene elements, and extrapolating unobserved regions in a view, in a geometrically consistent manner. Conditioning is limited to an image capturing a single camera view and the (relative) pose of the new camera view. To measure the consistency over a sequence of generated views, we introduce a new metric, the thresholded symmetric epipolar distance (TSED), to measure the number of consistent frame pairs in a sequence. While previous methods have been shown to produce high quality images and consistent semantics across pairs of views, we show empirically with our metric that they are often inconsistent with the desired camera poses. In contrast, we demonstrate that our method produces both photorealistic and view-consistent imagery.

arxiv情報

著者 Jason J. Yu,Fereshteh Forghani,Konstantinos G. Derpanis,Marcus A. Brubaker
発行日 2023-04-21 02:01:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク