要約
3D コンテンツの生成は大幅に進歩しましたが、既存の方法は入力形式、潜在空間設計、出力表現に関して依然として課題に直面しています。
このペーパーでは、これらの課題に対処し、インタラクティブな点群構造の潜在空間を備えたスケーラブルで高品質の 3D 生成を提供する、新しい 3D 生成フレームワークを紹介します。
私たちのフレームワークは、入力としてマルチビューポーズの RGB-D(epth)-N(ormal) レンダリングを備えた変分オートエンコーダー (VAE) を採用し、3D 形状情報を保存する独自の潜在空間設計を使用し、改善のためのカスケード潜在拡散モデルを組み込んでいます。
形状と質感のもつれを解く。
提案されたメソッド GaussianAnything は、マルチモーダル条件付き 3D 生成をサポートし、点群、キャプション、および単一/マルチビュー画像入力を可能にします。
特に、新たに提案された潜在空間により、ジオメトリとテクスチャのもつれの解消が自然に可能になり、3D を意識した編集が可能になります。
実験結果は、複数のデータセットに対する私たちのアプローチの有効性を示しており、テキストと画像の両方で条件付けされた 3D 生成において既存の方法を上回っています。
要約(オリジナル)
While 3D content generation has advanced significantly, existing methods still face challenges with input formats, latent space design, and output representations. This paper introduces a novel 3D generation framework that addresses these challenges, offering scalable, high-quality 3D generation with an interactive Point Cloud-structured Latent space. Our framework employs a Variational Autoencoder (VAE) with multi-view posed RGB-D(epth)-N(ormal) renderings as input, using a unique latent space design that preserves 3D shape information, and incorporates a cascaded latent diffusion model for improved shape-texture disentanglement. The proposed method, GaussianAnything, supports multi-modal conditional 3D generation, allowing for point cloud, caption, and single/multi-view image inputs. Notably, the newly proposed latent space naturally enables geometry-texture disentanglement, thus allowing 3D-aware editing. Experimental results demonstrate the effectiveness of our approach on multiple datasets, outperforming existing methods in both text- and image-conditioned 3D generation.
arxiv情報
著者 | Yushi Lan,Shangchen Zhou,Zhaoyang Lyu,Fangzhou Hong,Shuai Yang,Bo Dai,Xingang Pan,Chen Change Loy |
発行日 | 2024-11-12 18:59:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google