CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph Diffusion

要約

制御可能なシーン合成は、さまざまな産業用途向けのインタラクティブな環境を作成することを目的としています。
シーン グラフは、シーン コンテキストをコンパクトな方法で抽象化することで、これらのアプリケーションを容易にするための非常に適切なインターフェイスを提供します。
既存の方法は、広範なデータベースからの検索や事前トレーニングされた形状埋め込みに依存しており、シーンとオブジェクトおよびオブジェクトとオブジェクトの関係を見落とすことが多く、生成能力が限られているために一貫性のない結果が生じます。
この問題に対処するために、シーン グラフを、意味的に現実的で常識に準拠した、対応する制御可能な 3D シーンに変換する完全な生成モデルである CommonScenes を紹介します。
私たちのパイプラインは 2 つのブランチで構成されており、1 つは変分オート エンコーダーを介してシーン全体のレイアウトを予測し、もう 1 つは潜在拡散を介して互換性のある形状を生成し、形状の多様性を維持しながらシーン グラフ内のグローバルなシーンとオブジェクトおよびローカルのオブジェクト間の関係をキャプチャします。
生成されたシーンは、入力シーン グラフを編集し、拡散モデルでノイズをサンプリングすることによって操作できます。
リレーションを備えた高品質のオブジェクト レベル メッシュを提供するシーン グラフ データセットが不足しているため、SG-FRONT も構築し、追加のシーン グラフ ラベルで既製の屋内データセット 3D-FRONT を強化します。
SG-FRONT では広範な実験が行われ、CommonScenes は生成の一貫性、品質、多様性に関して他の方法よりも明らかな利点を示しています。
コードとデータセットは承認され次第リリースされます。

要約(オリジナル)

Controllable scene synthesis aims to create interactive environments for various industrial use cases. Scene graphs provide a highly suitable interface to facilitate these applications by abstracting the scene context in a compact manner. Existing methods, reliant on retrieval from extensive databases or pre-trained shape embeddings, often overlook scene-object and object-object relationships, leading to inconsistent results due to their limited generation capacity. To address this issue, we present CommonScenes, a fully generative model that converts scene graphs into corresponding controllable 3D scenes, which are semantically realistic and conform to commonsense. Our pipeline consists of two branches, one predicting the overall scene layout via a variational auto-encoder and the other generating compatible shapes via latent diffusion, capturing global scene-object and local inter-object relationships in the scene graph while preserving shape diversity. The generated scenes can be manipulated by editing the input scene graph and sampling the noise in the diffusion model. Due to lacking a scene graph dataset offering high-quality object-level meshes with relations, we also construct SG-FRONT, enriching the off-the-shelf indoor dataset 3D-FRONT with additional scene graph labels. Extensive experiments are conducted on SG-FRONT where CommonScenes shows clear advantages over other methods regarding generation consistency, quality, and diversity. Codes and the dataset will be released upon acceptance.

arxiv情報

著者 Guangyao Zhai,Evin Pınar Örnek,Shun-Cheng Wu,Yan Di,Federico Tombari,Nassir Navab,Benjamin Busam
発行日 2023-12-30 21:49:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク