要約
この論文では、拡散モデルを使用して任意のトポロジーを持つサーフェスとして高品質の 3D 形状を生成する新しい方法である Surf-D を紹介します。
具体的には、任意のトポロジーの処理に優れ、複雑な形状の生成が可能なUnsigned Distance Field(UDF)を曲面表現として採用しています。
従来の方法では、さまざまな表現による形状生成が検討されていましたが、トポロジやジオメトリの詳細が制限されているという問題がありました。
さらに、以前の拡散モデルは離散ボリューム構造により空間的連続性に欠けるため、これを UDF に直接拡張することは自明ではありません。
ただし、UDF ではメッシュの抽出と学習のために正確な勾配が必要です。
この問題に取り組むために、まずポイントベースのオートエンコーダーを利用してコンパクトな潜在空間を学習します。これは、微分による任意の入力ポイントの勾配クエリをサポートし、複雑なジオメトリを高解像度で効果的にキャプチャします。
さまざまな形状の学習難易度は異なる可能性があるため、さまざまな表面を効率的に埋め込むためのカリキュラム学習戦略が採用され、埋め込みプロセス全体が強化されます。
事前学習された形状潜在空間では、潜在拡散モデルを使用してさまざまな形状の分布を取得します。
私たちのアプローチは、複数のモダリティにわたる形状生成において優れたパフォーマンスを実証し、無条件生成、カテゴリー条件付き生成、画像からの 3D 再構成、およびテキストから形状へのタスクにおいて広範な実験を実施しています。
要約(オリジナル)
In this paper, we present Surf-D, a novel method for generating high-quality 3D shapes as Surfaces with arbitrary topologies using Diffusion models. Specifically, we adopt Unsigned Distance Field (UDF) as the surface representation, as it excels in handling arbitrary topologies, enabling the generation of complex shapes. While the prior methods explored shape generation with different representations, they suffer from limited topologies and geometry details. Moreover, it’s non-trivial to directly extend prior diffusion models to UDF because they lack spatial continuity due to the discrete volume structure. However, UDF requires accurate gradients for mesh extraction and learning. To tackle the issues, we first leverage a point-based auto-encoder to learn a compact latent space, which supports gradient querying for any input point through differentiation to effectively capture intricate geometry at a high resolution. Since the learning difficulty for various shapes can differ, a curriculum learning strategy is employed to efficiently embed various surfaces, enhancing the whole embedding process. With pretrained shape latent space, we employ a latent diffusion model to acquire the distribution of various shapes. Our approach demonstrates superior performance in shape generation across multiple modalities and conducts extensive experiments in unconditional generation, category conditional generation, 3D reconstruction from images, and text-to-shape tasks.
arxiv情報
著者 | Zhengming Yu,Zhiyang Dou,Xiaoxiao Long,Cheng Lin,Zekun Li,Yuan Liu,Norman Müller,Taku Komura,Marc Habermann,Christian Theobalt,Xin Li,Wenping Wang |
発行日 | 2023-11-28 18:56:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google