GaussianAnything: Interactive Point Cloud Flow Matching For 3D Object Generation

要約

3Dコンテンツの生成は大幅に進歩していますが、既存の方法は、入力形式、潜在的なスペース設計、および出力表現で依然として課題に直面しています。
このペーパーでは、これらの課題に対処する新しい3Dジェネレーションフレームワークを紹介し、インタラクティブなポイントクラウド構造の潜在スペースを備えたスケーラブルで高品質の3D世代を提供します。
私たちのフレームワークは、3D形状情報を保持するユニークな潜在スペースデザインを使用して、マルチビューがポーズRGB-D(EPTH)-N(ORMAL)レンダリングを入力として使用し、3D形状情報を保持し、改善された形状テキスト障害の改善のためのカスケードされた潜在フローベースのモデルを組み込んで、変動オートエンコーダー(VAE)を採用しています。
提案された方法であるGaussiananythingは、マルチモーダル条件付き3D生成をサポートし、ポイントクラウド、キャプション、および単一の画像入力を可能にします。
特に、新しく提案された潜在的な潜在スペースは、自然に幾何学的テクスチャーの解体を可能にするため、3Dを認識する編集を可能にします。
実験結果は、複数のデータセットに対するアプローチの有効性を示しており、テキストと画像の条件付き3D生成の両方で既存のネイティブ3Dメソッドを上回ります。

要約(オリジナル)

While 3D content generation has advanced significantly, existing methods still face challenges with input formats, latent space design, and output representations. This paper introduces a novel 3D generation framework that addresses these challenges, offering scalable, high-quality 3D generation with an interactive Point Cloud-structured Latent space. Our framework employs a Variational Autoencoder (VAE) with multi-view posed RGB-D(epth)-N(ormal) renderings as input, using a unique latent space design that preserves 3D shape information, and incorporates a cascaded latent flow-based model for improved shape-texture disentanglement. The proposed method, GaussianAnything, supports multi-modal conditional 3D generation, allowing for point cloud, caption, and single image inputs. Notably, the newly proposed latent space naturally enables geometry-texture disentanglement, thus allowing 3D-aware editing. Experimental results demonstrate the effectiveness of our approach on multiple datasets, outperforming existing native 3D methods in both text- and image-conditioned 3D generation.

arxiv情報

著者 Yushi Lan,Shangchen Zhou,Zhaoyang Lyu,Fangzhou Hong,Shuai Yang,Bo Dai,Xingang Pan,Chen Change Loy
発行日 2025-04-10 12:24:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク