Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text Aligned Latent Representation

要約

我々は、2次元画像やテキストから一般的な3次元形状を生成するという困難な課題に取り組むための、新しいアライメント前生成アプローチを提示する。画像やテキストから3次元形状への条件付き生成モデルを直接学習すると、2次元画像やテキストとは大きく異なる分布を持つ3次元形状が追加されるため、条件と矛盾した結果が生成されやすい。3つのモダリティ間の領域ギャップを埋め、マルチモーダルな条件付き3次元形状生成を容易にするために、我々は、形状-画像-テキストに整列した空間で3次元形状を表現することを探求する。我々のフレームワークは2つのモデルから構成される:形状-画像-テキスト-整列変分オートエンコーダ(SITA-VAE)と条件付き整列形状潜在拡散モデル(ASLDM)である。前者は3次元形状を画像とテキストに整列した形状潜在空間に埋め込み、与えられた形状埋め込みに対応するきめ細かな3次元神経野を変換器ベースのデコーダを介して再構成する。後者のモデルは、画像やテキスト空間から潜在形状空間への確率的マッピング関数を学習する。我々の広範な実験により、我々の提案するアプローチが、視覚的またはテキスト的条件入力により意味的に適合した、より高品質で多様な3次元形状を生成できることが実証され、クロスモダリティ3次元形状生成のための形状-画像-テキスト整列空間の有効性が検証された。

要約(オリジナル)

We present a novel alignment-before-generation approach to tackle the challenging task of generating general 3D shapes based on 2D images or texts. Directly learning a conditional generative model from images or texts to 3D shapes is prone to producing inconsistent results with the conditions because 3D shapes have an additional dimension whose distribution significantly differs from that of 2D images and texts. To bridge the domain gap among the three modalities and facilitate multi-modal-conditioned 3D shape generation, we explore representing 3D shapes in a shape-image-text-aligned space. Our framework comprises two models: a Shape-Image-Text-Aligned Variational Auto-Encoder (SITA-VAE) and a conditional Aligned Shape Latent Diffusion Model (ASLDM). The former model encodes the 3D shapes into the shape latent space aligned to the image and text and reconstructs the fine-grained 3D neural fields corresponding to given shape embeddings via the transformer-based decoder. The latter model learns a probabilistic mapping function from the image or text space to the latent shape space. Our extensive experiments demonstrate that our proposed approach can generate higher-quality and more diverse 3D shapes that better semantically conform to the visual or textural conditional inputs, validating the effectiveness of the shape-image-text-aligned space for cross-modality 3D shape generation.

arxiv情報

著者 Zibo Zhao,Wen Liu,Xin Chen,Xianfang Zeng,Rui Wang,Pei Cheng,Bin Fu,Tao Chen,Gang Yu,Shenghua Gao
発行日 2023-07-03 12:29:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク