RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion

要約

Textの説明から前向きな3Dシーンを生成するためのテクニックであるRealMDreamerを紹介します。
私たちの方法は、3Dガウスのスプラット表現を最適化して、前処理された拡散モデルを使用して複雑なテキストプロンプトに一致させます。
私たちの重要な洞察は、3D蒸留中に未知の領域に低い分散監督を提供するために、初期シーンの推定に条件付けられた2Dの開始拡散モデルを活用することです。
併せて、入力モデルからのサンプルを条件付けられた深さ拡散モデルからの幾何学的蒸留に高忠実度の幾何学を吹き込みます。
最適化の初期化が重要であり、そうするための原則的な方法論を提供することがわかります。
特に、私たちの手法はビデオまたはマルチビューデータを必要とせず、複雑なレイアウトを備えたさまざまなスタイルのさまざまな高品質の3Dシーンを合成できます。
さらに、この方法の一般性により、単一の画像からの3D合成が可能になります。
包括的なユーザー調査で測定されたように、当社の方法は、88-95%で優先される既存のすべてのアプローチよりも優れています。
プロジェクトページ:https://realmdreamer.github.io/

要約(オリジナル)

We introduce RealmDreamer, a technique for generating forward-facing 3D scenes from text descriptions. Our method optimizes a 3D Gaussian Splatting representation to match complex text prompts using pretrained diffusion models. Our key insight is to leverage 2D inpainting diffusion models conditioned on an initial scene estimate to provide low variance supervision for unknown regions during 3D distillation. In conjunction, we imbue high-fidelity geometry with geometric distillation from a depth diffusion model, conditioned on samples from the inpainting model. We find that the initialization of the optimization is crucial, and provide a principled methodology for doing so. Notably, our technique doesn’t require video or multi-view data and can synthesize various high-quality 3D scenes in different styles with complex layouts. Further, the generality of our method allows 3D synthesis from a single image. As measured by a comprehensive user study, our method outperforms all existing approaches, preferred by 88-95%. Project Page: https://realmdreamer.github.io/

arxiv情報

著者 Jaidev Shriram,Alex Trevithick,Lingjie Liu,Ravi Ramamoorthi
発行日 2025-03-11 17:06:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG パーマリンク