Planner3D: LLM-enhanced graph prior meets 3D indoor scene explicit regularization

要約

合成 3D シーン合成は、現実世界のマルチオブジェクト環境の複雑さを厳密に反映するため、ロボット工学、映画、ビデオ ゲームなどの幅広い業界にわたって多様な用途に使用できます。
従来の作品では通常、形状検索ベースのフレームワークが採用されており、当然のことながら形状の多様性が限られています。
最近、拡散モデルなどの生成モデルを使用したオブジェクト形状の生成が進歩し、形状の忠実度が向上しました。
ただし、これらのアプローチは 3D 形状の生成とレイアウトの生成を別々に扱います。
合成されたシーンは通常、レイアウトの衝突によって妨げられます。これは、シーン レベルの忠実性がまだ研究されていないことを示唆しています。
本論文では、シーングラフから現実的かつ合理的な3D屋内シーンを生成することを目的としている。
特定のシーン グラフ入力の事前分布を強化するために、大規模な言語モデルを利用して、グローバルな特徴とローカルのノードごとおよびエッジごとの特徴を集約します。
統合されたグラフ エンコーダを使用すると、グラフの特徴が抽出され、ジョイントのレイアウト形状の生成をガイドします。
生成される 3D レイアウトを明示的に制約するために、追加の正則化が導入されています。
SG-FRONT データセットでベンチマークされた私たちの方法は、特にシーンレベルの忠実度の点で、より優れた 3D シーン合成を実現します。
ソースコードは公開後に公開します。

要約(オリジナル)

Compositional 3D scene synthesis has diverse applications across a spectrum of industries such as robotics, films, and video games, as it closely mirrors the complexity of real-world multi-object environments. Conventional works typically employ shape retrieval based frameworks which naturally suffer from limited shape diversity. Recent progresses have been made in object shape generation with generative models such as diffusion models, which increases the shape fidelity. However, these approaches separately treat 3D shape generation and layout generation. The synthesized scenes are usually hampered by layout collision, which suggests that the scene-level fidelity is still under-explored. In this paper, we aim at generating realistic and reasonable 3D indoor scenes from scene graph. To enrich the priors of the given scene graph inputs, large language model is utilized to aggregate the global-wise features with local node-wise and edge-wise features. With a unified graph encoder, graph features are extracted to guide joint layout-shape generation. Additional regularization is introduced to explicitly constrain the produced 3D layouts. Benchmarked on the SG-FRONT dataset, our method achieves better 3D scene synthesis, especially in terms of scene-level fidelity. The source code will be released after publication.

arxiv情報

著者 Yao Wei,Martin Renqiang Min,George Vosselman,Li Erran Li,Michael Ying Yang
発行日 2024-08-26 12:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク