Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting

要約

3D シーンの生成は、2D 生成拡散モデルの一貫した改善によって促進され、すぐに挑戦的な新しい研究の方向性になりました。
この分野におけるこれまでの研究のほとんどは、新しく生成されたフレームを既存のジオメトリと繰り返し縫い合わせることでシーンを生成していました。
これらの作品は多くの場合、生成された画像を 3D に引き上げ、既存のシーン表現と融合するために、事前にトレーニングされた単眼奥行き推定器に依存します。
これらのアプローチは、多くの場合、生成された画像と特定のテキスト プロンプトの間の類似性を測定するテキスト メトリックを介して評価されます。
この取り組みでは、3D シーン生成の分野に 2 つの基本的な貢献を行います。
まず、単眼の奥行き推定モデルを使用して画像を 3D に持ち上げる方法は、既存のシーンのジオメトリを無視するため最適ではないことに注意します。
したがって、教師蒸留と 3D 融合プロセスを学習するための自己トレーニングを介してトレーニングされた新しい深度補完モデルを導入し、シーンの幾何学的一貫性が向上しました。
2 番目に、グラウンド トゥルース ジオメトリに基づくシーン生成方法の新しいベンチマーク スキームを導入し、シーンの構造の品質を測定します。

要約(オリジナル)

3D scene generation has quickly become a challenging new research direction, fueled by consistent improvements of 2D generative diffusion models. Most prior work in this area generates scenes by iteratively stitching newly generated frames with existing geometry. These works often depend on pre-trained monocular depth estimators to lift the generated images into 3D, fusing them with the existing scene representation. These approaches are then often evaluated via a text metric, measuring the similarity between the generated images and a given text prompt. In this work, we make two fundamental contributions to the field of 3D scene generation. First, we note that lifting images to 3D with a monocular depth estimation model is suboptimal as it ignores the geometry of the existing scene. We thus introduce a novel depth completion model, trained via teacher distillation and self-training to learn the 3D fusion process, resulting in improved geometric coherence of the scene. Second, we introduce a new benchmarking scheme for scene generation methods that is based on ground truth geometry, and thus measures the quality of the structure of the scene.

arxiv情報

著者 Paul Engstler,Andrea Vedaldi,Iro Laina,Christian Rupprecht
発行日 2024-04-30 17:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク