CG3D: Compositional Generation for Text-to-3D via Gaussian Splatting

要約

拡散ベースの生成モデルとテキスト条件付き画像を生成する機能の登場により、コンテンツ生成は大幅に活性化されました。
最近、これらのモデルが 3D グラフィックス アセットの生成に役立つガイダンスを提供することが示されました。
しかし、テキスト条件付き 3D 生成の既存の作業は、(i) 詳細なマルチオブジェクト シーンを生成できない、(ii) マルチオブジェクト構成をテキストで制御できない、(iii) 物理的に現実的なシーン構成という基本的な制約に直面しています。
本研究では、これらの制約を解決する、スケーラブルな 3D アセットを合成的に生成する手法である CG3D を提案します。
私たちは、オブジェクトの合成を可能にするためにパラメーター化された明示的なガウス放射輝度フィールドが、意味的および物理的に一貫したシーンを可能にする機能を備えていることを発見しました。
この明示的な表現を中心に構築されたガイダンス フレームワークを利用することで、オブジェクトの組み合わせと物理的精度の点でガイダンス拡散モデルをさらに超えることができる最先端の結果を示します。

要約(オリジナル)

With the onset of diffusion-based generative models and their ability to generate text-conditioned images, content generation has received a massive invigoration. Recently, these models have been shown to provide useful guidance for the generation of 3D graphics assets. However, existing work in text-conditioned 3D generation faces fundamental constraints: (i) inability to generate detailed, multi-object scenes, (ii) inability to textually control multi-object configurations, and (iii) physically realistic scene composition. In this work, we propose CG3D, a method for compositionally generating scalable 3D assets that resolves these constraints. We find that explicit Gaussian radiance fields, parameterized to allow for compositions of objects, possess the capability to enable semantically and physically consistent scenes. By utilizing a guidance framework built around this explicit representation, we show state of the art results, capable of even exceeding the guiding diffusion model in terms of object combinations and physics accuracy.

arxiv情報

著者 Alexander Vilesov,Pradyumna Chari,Achuta Kadambi
発行日 2023-11-29 18:55:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク