FastScene: Text-Driven Fast 3D Indoor Scene Generation via Panoramic Gaussian Splatting

要約

テキスト駆動の 3D 屋内シーン生成には、ゲームやスマート ホームから AR/VR アプリケーションに至るまで、幅広い用途が含まれます。
ユーザーフレンドリーなエクスペリエンスを確保するには、高速かつ忠実度の高いシーン生成が最も重要です。
しかし、既存の方法は、生成プロセスに時間がかかる、またはモーションパラメータの複雑な手動指定が必要であるという特徴があり、ユーザーにとって不便です。
さらに、これらの方法は狭いフィールドの視点による反復生成に依存することが多く、全体的な一貫性と全体的なシーンの品質が損なわれます。
これらの問題に対処するために、シーンの一貫性を維持しながら、高速かつ高品質な 3D シーンを生成するためのフレームワークである FastScene を提案します。
具体的には、テキスト プロンプトが与えられると、パノラマを生成し、その深度を推定します。これは、パノラマにはシーン全体に関する情報が含まれており、明示的な幾何学的制約が示されているためです。
高品質の新規ビューを取得するために、粗いビュー合成 (CVS) およびプログレッシブ ノベル ビュー修復 (PNVI) 戦略を導入し、シーンの一貫性とビューの品質の両方を保証します。
その後、マルチビュー投影 (MVP) を利用してパース ビューを形成し、シーンの再構成に 3D ガウス スプラッティング (3DGS) を適用します。
包括的な実験により、FastScene が生成速度と品質の両方で他の方法を上回り、シーンの一貫性が向上することが実証されました。
特に、FastScene はテキスト プロンプトのみによってガイドされ、わずか 15 分以内に 3D シーンを生成できます。これは、最先端の方法より少なくとも 1 時間高速であり、ユーザーフレンドリーなシーン生成のパラダイムとなっています。

要約(オリジナル)

Text-driven 3D indoor scene generation holds broad applications, ranging from gaming and smart homes to AR/VR applications. Fast and high-fidelity scene generation is paramount for ensuring user-friendly experiences. However, existing methods are characterized by lengthy generation processes or necessitate the intricate manual specification of motion parameters, which introduces inconvenience for users. Furthermore, these methods often rely on narrow-field viewpoint iterative generations, compromising global consistency and overall scene quality. To address these issues, we propose FastScene, a framework for fast and higher-quality 3D scene generation, while maintaining the scene consistency. Specifically, given a text prompt, we generate a panorama and estimate its depth, since the panorama encompasses information about the entire scene and exhibits explicit geometric constraints. To obtain high-quality novel views, we introduce the Coarse View Synthesis (CVS) and Progressive Novel View Inpainting (PNVI) strategies, ensuring both scene consistency and view quality. Subsequently, we utilize Multi-View Projection (MVP) to form perspective views, and apply 3D Gaussian Splatting (3DGS) for scene reconstruction. Comprehensive experiments demonstrate FastScene surpasses other methods in both generation speed and quality with better scene consistency. Notably, guided only by a text prompt, FastScene can generate a 3D scene within a mere 15 minutes, which is at least one hour faster than state-of-the-art methods, making it a paradigm for user-friendly scene generation.

arxiv情報

著者 Yikun Ma,Dandan Zhan,Zhi Jin
発行日 2024-05-09 13:44:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク