Compositional 3D Scene Synthesis with Scene Graph Guided Layout-Shape Generation

要約

合成 3D シーン合成は、現実世界のマルチオブジェクト環境の複雑さを厳密に反映するため、ロボット工学、映画、ビデオ ゲームなどの幅広い業界にわたって多様な用途に使用できます。
初期の作品では通常、形状検索ベースのフレームワークが採用されており、当然のことながら形状の多様性が限られています。
最近、拡散モデルなどの強力な生成モデルによる形状生成が進歩し、形状の忠実度が向上しました。
ただし、これらのアプローチは 3D 形状の生成とレイアウトの生成を別々に扱います。
合成されたシーンは通常、レイアウトの衝突によって妨げられます。これは、シーン レベルの忠実度がまだ研究されていないことを意味します。
本論文では、シーングラフから現実的かつ合理的な 3D シーンを生成することを目的としています。
特定のシーン グラフ入力の表現機能を強化するために、大規模な言語モデルを利用して、グローバル グラフ特徴とローカル関係特徴を明示的に集約します。
統合グラフ畳み込みネットワーク (GCN) を使用すると、結合レイアウト形状分布を介して更新されたシーン グラフからグラフの特徴が抽出されます。
シーンの生成中に、予測された 3D レイアウトを制約するために IoU ベースの正則化損失が導入されます。
SG-FRONT データセットでベンチマークされた私たちの方法は、特にシーンレベルの忠実度の点で、より優れた 3D シーン合成を実現します。
ソースコードは公開後に公開します。

要約(オリジナル)

Compositional 3D scene synthesis has diverse applications across a spectrum of industries such as robotics, films, and video games, as it closely mirrors the complexity of real-world multi-object environments. Early works typically employ shape retrieval based frameworks which naturally suffer from limited shape diversity. Recent progresses have been made in shape generation with powerful generative models, such as diffusion models, which increases the shape fidelity. However, these approaches separately treat 3D shape generation and layout generation. The synthesized scenes are usually hampered by layout collision, which implies that the scene-level fidelity is still under-explored. In this paper, we aim at generating realistic and reasonable 3D scenes from scene graph. To enrich the representation capability of the given scene graph inputs, large language model is utilized to explicitly aggregate the global graph features with local relationship features. With a unified graph convolution network (GCN), graph features are extracted from scene graphs updated via joint layout-shape distribution. During scene generation, an IoU-based regularization loss is introduced to constrain the predicted 3D layouts. Benchmarked on the SG-FRONT dataset, our method achieves better 3D scene synthesis, especially in terms of scene-level fidelity. The source code will be released after publication.

arxiv情報

著者 Yao Wei,Martin Renqiang Min,George Vosselman,Li Erran Li,Michael Ying Yang
発行日 2024-03-19 15:54:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク