要約
シーンレベルのノベルビュー合成 (NVS) は、多くのビジョンおよびグラフィックス アプリケーションの基礎です。
最近では、姿勢条件付き拡散モデルが 2D 基盤モデルから 3D 情報を抽出することで大幅な進歩を遂げていますが、これらの方法はシーンレベルのトレーニング データの欠如によって制限されています。
一般的なデータセットの選択は、孤立したオブジェクト (Objaverse) か、ポーズ分布が制限されたオブジェクト中心のシーン (DTU、CO3D) で構成されます。
この論文では、MegaScenes と呼ばれるインターネット写真コレクションから大規模なシーン レベルのデータセットを作成します。このデータセットには、世界中の 100,000 を超えるモーションからの構造 (SfM) 再構成が含まれています。
インターネット写真はスケーラブルなデータ ソースですが、照明や一時的なオブジェクトなどの課題が伴います。
これらの問題に対処して、NVS のタスクに適したサブセットをさらに作成します。
さらに、最先端の NVS 手法の失敗ケースを分析し、生成の一貫性を大幅に向上させます。
広範な実験を通じて、私たちは野生のシーンを生成する際のデータセットと手法の両方の有効性を検証しました。
データセットとコードの詳細については、https://megascenes.github.io のプロジェクト ページを参照してください。
要約(オリジナル)
Scene-level novel view synthesis (NVS) is fundamental to many vision and graphics applications. Recently, pose-conditioned diffusion models have led to significant progress by extracting 3D information from 2D foundation models, but these methods are limited by the lack of scene-level training data. Common dataset choices either consist of isolated objects (Objaverse), or of object-centric scenes with limited pose distributions (DTU, CO3D). In this paper, we create a large-scale scene-level dataset from Internet photo collections, called MegaScenes, which contains over 100K structure from motion (SfM) reconstructions from around the world. Internet photos represent a scalable data source but come with challenges such as lighting and transient objects. We address these issues to further create a subset suitable for the task of NVS. Additionally, we analyze failure cases of state-of-the-art NVS methods and significantly improve generation consistency. Through extensive experiments, we validate the effectiveness of both our dataset and method on generating in-the-wild scenes. For details on the dataset and code, see our project page at https://megascenes.github.io .
arxiv情報
著者 | Joseph Tung,Gene Chou,Ruojin Cai,Guandao Yang,Kai Zhang,Gordon Wetzstein,Bharath Hariharan,Noah Snavely |
発行日 | 2024-06-17 17:55:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google