Spice-E : Structural Priors in 3D Diffusion using Cross-Entity Attention

要約

我々は、事前に学習されたテキスト画像拡散モデルの利用可能性により、3D資産の自動生成と操作の急速な進歩を目の当たりにしている。しかし、各サンプルの合成には時間のかかる最適化手順が必要であり、3Dコンテンツ作成の民主化の妨げとなっている。逆に、3D拡散モデルは現在、100万スケールの3Dデータセットで学習し、高品質なテキスト条件付き3Dサンプルを数秒で得ることができる。この研究では、3D拡散モデルに構造的なガイダンスを追加するニューラルネットワークであるSpice-Eを紹介します。その中核として、我々のフレームワークは、複数のエンティティ(特に、対になった入力とガイダンスの3D形状)が、ノイズ除去ネットワーク内の内部表現を介して相互作用することを可能にする、クロスエンティティアテンションメカニズムを導入している。我々はこのメカニズムを、補助的なガイダンス形状から3D拡散モデルのタスクに特異的な構造プリオールを学習するために利用する。本アプローチは、3Dスタイル化、意味的形状編集、プリミティブベースの抽象化を表現力の高い形状に変換するテキスト条件付き抽象化-to-3Dなど、様々なアプリケーションをサポートすることを示す。広範な実験により、Spice-EはこれらのタスクでSOTA性能を達成し、多くの場合、代替手法よりもかなり高速であることが実証されています。重要なことは、特定のタスク用に我々のアプローチを調整することなく、これが達成されていることです。

要約(オリジナル)

We are witnessing rapid progress in automatically generating and manipulating 3D assets due to the availability of pretrained text-image diffusion models. However, time-consuming optimization procedures are required for synthesizing each sample, hindering their potential for democratizing 3D content creation. Conversely, 3D diffusion models now train on million-scale 3D datasets, yielding high-quality text-conditional 3D samples within seconds. In this work, we present Spice-E – a neural network that adds structural guidance to 3D diffusion models, extending their usage beyond text-conditional generation. At its core, our framework introduces a cross-entity attention mechanism that allows for multiple entities (in particular, paired input and guidance 3D shapes) to interact via their internal representations within the denoising network. We utilize this mechanism for learning task-specific structural priors in 3D diffusion models from auxiliary guidance shapes. We show that our approach supports a variety of applications, including 3D stylization, semantic shape editing and text-conditional abstraction-to-3D, which transforms primitive-based abstractions into highly-expressive shapes. Extensive experiments demonstrate that Spice-E achieves SOTA performance over these tasks while often being considerably faster than alternative methods. Importantly, this is accomplished without tailoring our approach for any specific task.

arxiv情報

著者 Etai Sella,Gal Fiebelman,Noam Atia,Hadar Averbuch-Elor
発行日 2024-05-06 13:14:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR パーマリンク