要約
事前トレーニングされたテキストと画像の拡散モデルが利用できるようになったことで、3D アセットの自動生成と操作が急速に進歩しているのを目の当たりにしています。
ただし、各サンプルの合成には時間のかかる最適化手順が必要であり、3D コンテンツ作成の民主化の可能性を妨げています。
逆に、3D 拡散モデルは百万規模の 3D データセットでトレーニングされ、数秒以内に高品質のテキスト条件付き 3D サンプルが得られます。
この研究では、SPiC-E を紹介します。SPiC-E は、3D 拡散モデルに構造的なガイダンスを追加し、テキスト条件付き生成を超えてその使用法を拡張するニューラル ネットワークです。
私たちのフレームワークはその中核として、複数のエンティティ (特に入力とガイダンスの 3D 形状のペア) がノイズ除去ネットワーク内の内部表現を介して対話できるようにするクロスエンティティ アテンション メカニズムを導入しています。
このメカニズムを利用して、補助誘導形状から 3D 拡散モデルのタスク固有の構造事前分布を学習します。
私たちのアプローチが、3D スタイライゼーション、セマンティック形状編集、プリミティブベースの抽象化を表現力の高い形状に変換するテキスト条件付き抽象化から 3D への変換など、さまざまなアプリケーションをサポートしていることを示します。
広範な実験により、SPiC-E はこれらのタスクに対して SOTA パフォーマンスを達成しながら、多くの場合、代替方法よりも大幅に高速であることが実証されています。
重要なのは、これは特定のタスクに合わせてアプローチを調整することなく達成されるということです。
要約(オリジナル)
We are witnessing rapid progress in automatically generating and manipulating 3D assets due to the availability of pretrained text-image diffusion models. However, time-consuming optimization procedures are required for synthesizing each sample, hindering their potential for democratizing 3D content creation. Conversely, 3D diffusion models now train on million-scale 3D datasets, yielding high-quality text-conditional 3D samples within seconds. In this work, we present SPiC-E – a neural network that adds structural guidance to 3D diffusion models, extending their usage beyond text-conditional generation. At its core, our framework introduces a cross-entity attention mechanism that allows for multiple entities (in particular, paired input and guidance 3D shapes) to interact via their internal representations within the denoising network. We utilize this mechanism for learning task-specific structural priors in 3D diffusion models from auxiliary guidance shapes. We show that our approach supports a variety of applications, including 3D stylization, semantic shape editing and text-conditional abstraction-to-3D, which transforms primitive-based abstractions into highly-expressive shapes. Extensive experiments demonstrate that SPiC-E achieves SOTA performance over these tasks while often being considerably faster than alternative methods. Importantly, this is accomplished without tailoring our approach for any specific task.
arxiv情報
著者 | Etai Sella,Gal Fiebelman,Noam Atia,Hadar Averbuch-Elor |
発行日 | 2023-11-30 12:59:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google