要約
タイトル:SparseGNV:疎な入力視点で室内シーンの新しい視点を生成する
要約:
– 疎な入力視点から室内シーンの新しい視点を生成することに挑戦する。
– 写真のようなリアルさとビューの一貫性の両方を実現することが求められる。
– SparseGNVは、3D構造と画像生成モデルを組み合わせた学習フレームワークであり、3つのモジュールから構成されている。
– 1つ目のモジュールは、ニューラルポイントクラウドを下部ジオメトリとして構築し、目的の新しい視点に対する文脈情報とガイダンスを提供する。
– 2つ目のモジュールは、トランスフォーマーベースのネットワークを利用して、シーンコンテキストとガイダンスを共有の潜在空間にマッピングし、離散的な画像トークンの形で目的のビューを自己回帰的に復号化する。
– 3つ目のモジュールは、トークンをターゲットビューのイメージに再構築する。
– SparseGNVは、大規模な室内シーンデータセットでトレーニングされ、汎化事前知識を学習する。一度トレーニングされると、未知の室内シーンの新しいビューを効率的にフィードフォワードで生成することができる。
– SparseGNVは、リアルなものと合成したテスト結果として、Neural Radiance FieldsまたはConditional Image Generationに基づく最新の手法を上回る性能を示した。
要約(オリジナル)
We study to generate novel views of indoor scenes given sparse input views. The challenge is to achieve both photorealism and view consistency. We present SparseGNV: a learning framework that incorporates 3D structures and image generative models to generate novel views with three modules. The first module builds a neural point cloud as underlying geometry, providing contextual information and guidance for the target novel view. The second module utilizes a transformer-based network to map the scene context and the guidance into a shared latent space and autoregressively decodes the target view in the form of discrete image tokens. The third module reconstructs the tokens into the image of the target view. SparseGNV is trained across a large indoor scene dataset to learn generalizable priors. Once trained, it can efficiently generate novel views of an unseen indoor scene in a feed-forward manner. We evaluate SparseGNV on both real-world and synthetic indoor scenes and demonstrate that it outperforms state-of-the-art methods based on either neural radiance fields or conditional image generation.
arxiv情報
著者 | Weihao Cheng,Yan-Pei Cao,Ying Shan |
発行日 | 2023-05-11 17:58:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI