3D scene generation from scene graphs and self-attention

要約

現実的で多様な屋内 3D シーン レイアウトを制御可能な方法で合成することで、シミュレートされたナビゲーションや仮想現実でのアプリケーションが可能になります。
シーンの簡潔かつ堅牢な表現として、シーン グラフは、生成されたレイアウトのセマンティック コントロールとして適していることが証明されています。
シーン グラフとフロア プランから 3D シーンを合成するための、条件付き変分オートエンコーダー (cVAE) モデルのバリアントを紹介します。
セルフ アテンション レイヤーのプロパティを利用して、シーン内のオブジェクト間の高レベルの関係をキャプチャし、これらをモデルの構成要素として使用します。
私たちのモデルは、グラフ トランスフォーマーを利用して、特定のシーン グラフ内の関係を満たしながら、部屋内のオブジェクトのサイズ、寸法、方向を推定します。
私たちの実験では、セルフ アテンション レイヤーがよりまばらなシーン (Graphto3D と比較して 7.9 倍) とより多様なシーン (16%) につながることを示しています。

要約(オリジナル)

Synthesizing realistic and diverse indoor 3D scene layouts in a controllable fashion opens up applications in simulated navigation and virtual reality. As concise and robust representations of a scene, scene graphs have proven to be well-suited as the semantic control on the generated layout. We present a variant of the conditional variational autoencoder (cVAE) model to synthesize 3D scenes from scene graphs and floor plans. We exploit the properties of self-attention layers to capture high-level relationships between objects in a scene, and use these as the building blocks of our model. Our model, leverages graph transformers to estimate the size, dimension and orientation of the objects in a room while satisfying relationships in the given scene graph. Our experiments shows self-attention layers leads to sparser (7.9x compared to Graphto3D) and more diverse scenes (16%).

arxiv情報

著者 Pietro Bonazzi,Mengqi Wang,Diego Martin Arroyo,Fabian Manhardt,Nico Messikomer,Federico Tombari,Davide Scaramuzza
発行日 2024-04-24 03:13:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク