Wonderland: Navigating 3D Scenes from a Single Image

要約

このペーパーでは、単一の任意の画像から高品質で広範囲の 3D シーンを効率的に作成するにはどうすればよいでしょうか?という難しい質問に取り組みます。
既存の手法は、マルチビュー データの必要性、シーンごとの最適化に時間がかかること、背景の視覚的品質が低いこと、目に見えない領域での歪んだ再構成など、いくつかの制約に直面しています。
これらの制限を克服するための新しいパイプラインを提案します。
具体的には、ビデオ拡散モデルからの潜在を使用してフィードフォワード方式でシーンの 3D ガウス スプラッティングを予測する大規模な再構成モデ​​ルを導入します。
ビデオ拡散モデルは、指定されたカメラの軌跡に正確に従ってビデオを作成するように設計されており、3D の一貫性を維持しながらマルチビュー情報を含む圧縮ビデオ潜在を生成できます。
漸進的トレーニング戦略を使用してビデオ潜在空間上で動作するように 3D 再構成モデ​​ルをトレーニングし、高品質で広範囲の一般的な 3D シーンを効率的に生成できるようにします。
さまざまなデータセットにわたる広範な評価により、私たちのモデルが、特にドメイン外画像の場合、シングルビュー 3D シーン生成の既存の方法よりも大幅に優れていることが実証されました。
効率的な 3D シーン生成を実現するために、拡散モデルの潜在空間上に 3D 再構成モデ​​ルを効果的に構築できることを初めて実証します。

要約(オリジナル)

This paper addresses a challenging question: How can we efficiently create high-quality, wide-scope 3D scenes from a single arbitrary image? Existing methods face several constraints, such as requiring multi-view data, time-consuming per-scene optimization, low visual quality in backgrounds, and distorted reconstructions in unseen areas. We propose a novel pipeline to overcome these limitations. Specifically, we introduce a large-scale reconstruction model that uses latents from a video diffusion model to predict 3D Gaussian Splattings for the scenes in a feed-forward manner. The video diffusion model is designed to create videos precisely following specified camera trajectories, allowing it to generate compressed video latents that contain multi-view information while maintaining 3D consistency. We train the 3D reconstruction model to operate on the video latent space with a progressive training strategy, enabling the efficient generation of high-quality, wide-scope, and generic 3D scenes. Extensive evaluations across various datasets demonstrate that our model significantly outperforms existing methods for single-view 3D scene generation, particularly with out-of-domain images. For the first time, we demonstrate that a 3D reconstruction model can be effectively built upon the latent space of a diffusion model to realize efficient 3D scene generation.

arxiv情報

著者 Hanwen Liang,Junli Cao,Vidit Goel,Guocheng Qian,Sergei Korolev,Demetri Terzopoulos,Konstantinos N. Plataniotis,Sergey Tulyakov,Jian Ren
発行日 2024-12-16 18:58:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク