GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting

要約

効果的な構成テキストから 3D への生成を目的とした、LAyout ガイド付きコントロールを備えた生成 3D GAussian である GALA3D を紹介します。
まず、大規模言語モデル (LLM) を利用して初期レイアウトを生成し、適応幾何学的制約を備えた 3D コンテンツ生成のためのレイアウトガイド付き 3D ガウス表現を導入します。
次に、生成されたシーンに合わせて LLM から抽出された粗いレイアウト事前分布を調整しながら、一貫したジオメトリ、テクスチャ、スケール、および複数のオブジェクト間の正確な相互作用を備えたリアルな 3D シーンを共同で生成するための、条件付き拡散によるインスタンス シーンの組成最適化メカニズムを提案します。

実験の結果、GALA3D は、シーン内のオブジェクト レベルのエンティティの高い忠実度を確保しながら、最先端のシーン レベルの 3D コンテンツの生成と制御可能な編集のためのユーザー フレンドリーなエンドツーエンドのフレームワークであることがわかりました。
ソース コードとモデルは、gala3d.github.io で入手できます。

要約(オリジナル)

We present GALA3D, generative 3D GAussians with LAyout-guided control, for effective compositional text-to-3D generation. We first utilize large language models (LLMs) to generate the initial layout and introduce a layout-guided 3D Gaussian representation for 3D content generation with adaptive geometric constraints. We then propose an instance-scene compositional optimization mechanism with conditioned diffusion to collaboratively generate realistic 3D scenes with consistent geometry, texture, scale, and accurate interactions among multiple objects while simultaneously adjusting the coarse layout priors extracted from the LLMs to align with the generated scene. Experiments show that GALA3D is a user-friendly, end-to-end framework for state-of-the-art scene-level 3D content generation and controllable editing while ensuring the high fidelity of object-level entities within the scene. The source codes and models will be available at gala3d.github.io.

arxiv情報

著者 Xiaoyu Zhou,Xingjian Ran,Yajiao Xiong,Jinlin He,Zhiwei Lin,Yongtao Wang,Deqing Sun,Ming-Hsuan Yang
発行日 2024-06-11 15:16:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク