Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation

要約

テキストの説明から高品質の 3D オブジェクトを生成することは、計算コスト、3D データの不足、および複雑な 3D 表現のため、依然として困難な問題です。
ジオメトリ イメージ ディフュージョン (GIMDiffusion) を紹介します。これは、ジオメトリ イメージを利用して 2D 画像を使用して 3D 形状を効率的に表現し、それによって複雑な 3D 対応アーキテクチャの必要性を回避する、新しい Text-to-3D モデルです。
協調制御メカニズムを統合することにより、安定拡散などの既存の Text-to-Image モデルの豊富な 2D 事前分布を活用します。
これにより、IPAdapter などのガイダンス技術との互換性を維持するだけでなく、限られた 3D トレーニング データでも強力な一般化が可能になり (高品質のトレーニング データのみを使用できるようになります)。
つまり、GIMDiffusion を使用すると、現在の Text-to-Image モデルと同等の速度で 3D アセットを生成できます。
生成されたオブジェクトは意味的に意味のある個別の部分で構成され、内部構造が含まれているため、使いやすさと汎用性が向上します。

要約(オリジナル)

Generating high-quality 3D objects from textual descriptions remains a challenging problem due to computational cost, the scarcity of 3D data, and complex 3D representations. We introduce Geometry Image Diffusion (GIMDiffusion), a novel Text-to-3D model that utilizes geometry images to efficiently represent 3D shapes using 2D images, thereby avoiding the need for complex 3D-aware architectures. By integrating a Collaborative Control mechanism, we exploit the rich 2D priors of existing Text-to-Image models such as Stable Diffusion. This enables strong generalization even with limited 3D training data (allowing us to use only high-quality training data) as well as retaining compatibility with guidance techniques such as IPAdapter. In short, GIMDiffusion enables the generation of 3D assets at speeds comparable to current Text-to-Image models. The generated objects consist of semantically meaningful, separate parts and include internal structures, enhancing both usability and versatility.

arxiv情報

著者 Slava Elizarov,Ciara Rowles,Simon Donné
発行日 2024-09-05 17:21:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク