PanoDreamer: Consistent Text to 360-Degree Scene Generation

要約

テキストの説明、リファレンス画像、またはその両方から完全な3Dシーンを自動的に生成すると、仮想現実やゲームなどのフィールドに重要なアプリケーションがあります。
ただし、現在の方法は、多くの場合、低品質のテクスチャと一貫性のない3D構造を生成します。
これは、参照画像の視野を超えて大幅に外挿する場合に特に当てはまります。
これらの課題に対処するために、柔軟なテキストと画像制御を備えた一貫した3Dシーン生成のための新しいフレームワークであるPanodreamerを提案します。
私たちのアプローチでは、大規模な言語モデルとワープリファインパイプラインを採用しており、最初に最初の画像セットを生成し、次に360度のパノラマに合わせます。
次に、このパノラマを3Dに持ち上げて、初期ポイントクラウドを形成します。
次に、いくつかのアプローチを使用して、異なる視点から追加の画像を生成し、初期ポイントクラウドと一致し、初期ポイントクラウドを展開/改良します。
結果の画像のセットを考えると、3Dガウスのスプラッティングを利用して最終的な3Dシーンを作成し、異なる視点からレンダリングできます。
実験は、高品質で幾何学的に一貫した3Dシーンを生成する際のパノドリーマーの有効性を示しています。

要約(オリジナル)

Automatically generating a complete 3D scene from a text description, a reference image, or both has significant applications in fields like virtual reality and gaming. However, current methods often generate low-quality textures and inconsistent 3D structures. This is especially true when extrapolating significantly beyond the field of view of the reference image. To address these challenges, we propose PanoDreamer, a novel framework for consistent, 3D scene generation with flexible text and image control. Our approach employs a large language model and a warp-refine pipeline, first generating an initial set of images and then compositing them into a 360-degree panorama. This panorama is then lifted into 3D to form an initial point cloud. We then use several approaches to generate additional images, from different viewpoints, that are consistent with the initial point cloud and expand/refine the initial point cloud. Given the resulting set of images, we utilize 3D Gaussian Splatting to create the final 3D scene, which can then be rendered from different viewpoints. Experiments demonstrate the effectiveness of PanoDreamer in generating high-quality, geometrically consistent 3D scenes.

arxiv情報

著者 Zhexiao Xiong,Zhang Chen,Zhong Li,Yi Xu,Nathan Jacobs
発行日 2025-04-07 14:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク