Mixed Diffusion for 3D Indoor Scene Synthesis

要約

リアルな条件付き 3D シーン合成により、仮想環境の作成が大幅に強化および加速され、他のアプリケーションの中でも特にコンピューター ビジョンやロボット研究のための広範なトレーニング データも提供できます。
拡散モデルは、順序のないセットの正確な配置など、関連するアプリケーションで優れたパフォーマンスを示しています。
ただし、これらのモデルは、フロア条件付きシーン合成問題では十分に検討されていません。
私たちは、与えられた部屋のタイプ、間取り図、および既存のオブジェクトの可能性からもっともらしい 3D 屋内シーンを合成するように設計された、新しい離散連続拡散モデル アーキテクチャである MiDiffusion を紹介します。
シーン レイアウトは 2D フロア プランとオブジェクトのセットによって表され、それぞれがカテゴリ、位置、サイズ、方向によって定義されます。
私たちのアプローチは、混合された離散セマンティックドメインと連続幾何学ドメイン全体にわたって構造化破損を独自に実装し、その結果、逆ノイズ除去ステップでより適切に条件付けされた問題が得られます。
3D-FRONT データセットに対するアプローチを評価します。
私たちの実験結果は、MiDiffusion がフロア条件付き 3D シーン合成において最先端の自己回帰および拡散モデルを大幅に上回るパフォーマンスを示していることを示しています。
さらに、私たちのモデルは、タスク固有のトレーニングを行わずに、破損とマスキング戦略を介して部分的なオブジェクト制約を処理できます。
シーンの完成や家具の配置の実験において、MiDiffusion が既存のアプローチに比べて明らかな利点を維持していることを示します。

要約(オリジナル)

Realistic conditional 3D scene synthesis significantly enhances and accelerates the creation of virtual environments, which can also provide extensive training data for computer vision and robotics research among other applications. Diffusion models have shown great performance in related applications, e.g., making precise arrangements of unordered sets. However, these models have not been fully explored in floor-conditioned scene synthesis problems. We present MiDiffusion, a novel mixed discrete-continuous diffusion model architecture, designed to synthesize plausible 3D indoor scenes from given room types, floor plans, and potentially pre-existing objects. We represent a scene layout by a 2D floor plan and a set of objects, each defined by its category, location, size, and orientation. Our approach uniquely implements structured corruption across the mixed discrete semantic and continuous geometric domains, resulting in a better conditioned problem for the reverse denoising step. We evaluate our approach on the 3D-FRONT dataset. Our experimental results demonstrate that MiDiffusion substantially outperforms state-of-the-art autoregressive and diffusion models in floor-conditioned 3D scene synthesis. In addition, our models can handle partial object constraints via a corruption-and-masking strategy without task specific training. We show MiDiffusion maintains clear advantages over existing approaches in scene completion and furniture arrangement experiments.

arxiv情報

著者 Siyi Hu,Diego Martin Arroyo,Stephanie Debats,Fabian Manhardt,Luca Carlone,Federico Tombari
発行日 2024-05-31 17:54:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク