Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer

要約

テキストや画像から高品質の 3D アセットを生成することは、主に複雑なジオメトリ分布をキャプチャできるスケーラブルな 3D 表現が存在しないため、長い間困難でした。
この研究では、マルチビュー拡散モデルや SDS 最適化を必要とせずに、実際の入力画像に拡張可能なネイティブ 3D 生成モデルである Direct3D を導入します。
私たちのアプローチは、ダイレクト 3D 変分オートエンコーダー (D3D-VAE) とダイレクト 3D 拡散トランスフォーマー (D3D-DiT) という 2 つの主要コンポーネントで構成されます。
D3D-VAE は、高解像度の 3D 形状をコンパクトで連続的な潜在トリプレーン空間に効率的にエンコードします。
特に、私たちの方法は、半連続表面サンプリング戦略を使用してデコードされたジオメトリを直接監視し、監視信号としてレンダリングされた画像に依存する以前の方法とは異なります。
D3D-DiT は、エンコードされた 3D 潜在の分布をモデル化し、トリプレーン 潜在の 3 つの特徴マップからの位置情報を融合するように特別に設計されており、大規模な 3D データセットに拡張可能なネイティブ 3D 生成モデルを可能にします。
さらに、セマンティックおよびピクセルレベルの画像条件を組み込んだ革新的な画像から 3D 生成パイプラインを導入し、提供された条件付き画像入力と一致する 3D 形状をモデルが生成できるようにします。
広範な実験により、当社の大規模な事前トレーニング済み Direct3D が以前の画像から 3D へのアプローチよりも優れていることが実証され、大幅に優れた生成品質と一般化能力が実現され、3D コンテンツ作成のための新しい最先端技術が確立されました。
プロジェクトページ: https://nju-3dv.github.io/projects/Direct3D/。

要約(オリジナル)

Generating high-quality 3D assets from text and images has long been challenging, primarily due to the absence of scalable 3D representations capable of capturing intricate geometry distributions. In this work, we introduce Direct3D, a native 3D generative model scalable to in-the-wild input images, without requiring a multiview diffusion model or SDS optimization. Our approach comprises two primary components: a Direct 3D Variational Auto-Encoder (D3D-VAE) and a Direct 3D Diffusion Transformer (D3D-DiT). D3D-VAE efficiently encodes high-resolution 3D shapes into a compact and continuous latent triplane space. Notably, our method directly supervises the decoded geometry using a semi-continuous surface sampling strategy, diverging from previous methods relying on rendered images as supervision signals. D3D-DiT models the distribution of encoded 3D latents and is specifically designed to fuse positional information from the three feature maps of the triplane latent, enabling a native 3D generative model scalable to large-scale 3D datasets. Additionally, we introduce an innovative image-to-3D generation pipeline incorporating semantic and pixel-level image conditions, allowing the model to produce 3D shapes consistent with the provided conditional image input. Extensive experiments demonstrate the superiority of our large-scale pre-trained Direct3D over previous image-to-3D approaches, achieving significantly better generation quality and generalization ability, thus establishing a new state-of-the-art for 3D content creation. Project page: https://nju-3dv.github.io/projects/Direct3D/.

arxiv情報

著者 Shuang Wu,Youtian Lin,Feihu Zhang,Yifei Zeng,Jingxi Xu,Philip Torr,Xun Cao,Yao Yao
発行日 2024-05-23 17:49:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク