Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text Aligned Latent Representation

要約

2D 画像またはテキストに基づいて一般的な 3D 形状を生成するという困難なタスクに取り組むための、新しい生成前位置合わせアプローチを紹介します。
画像やテキストから 3D 形状への条件付き生成モデルを直接学習すると、条件と一致しない結果が生成される傾向があります。これは、3D 形状には追加の次元があり、その分布が 2D 画像やテキストの分布とは大きく異なるためです。
3 つのモダリティ間のドメイン ギャップを橋渡しし、マルチモーダル条件付き 3D 形状生成を容易にするために、形状、画像、テキストが配置された空間で 3D 形状を表現する方法を検討します。
私たちのフレームワークは、Shape-Image-Text-Aligned variational Auto-Encoder (SITA-VAE) と条件付き Aligned Shape Latent Diffusion Model (ASLDM) の 2 つのモデルで構成されています。
前者のモデルは、3D 形状を画像とテキストに合わせた形状潜在空間にエンコードし、トランスフォーマーベースのデコーダーを介して、指定された形状埋め込みに対応するきめの細かい 3D ニューラル フィールドを再構築します。
後者のモデルは、画像またはテキスト空間から潜在形状空間への確率的マッピング関数を学習します。
私たちの広範な実験は、私たちが提案したアプローチが、視覚またはテクスチャの条件入力に意味的によく適合する、より高品質でより多様な 3D 形状を生成できることを実証し、クロスモダリティ 3D 形状生成における形状、画像、テキストが配置された空間の有効性を検証します。

要約(オリジナル)

We present a novel alignment-before-generation approach to tackle the challenging task of generating general 3D shapes based on 2D images or texts. Directly learning a conditional generative model from images or texts to 3D shapes is prone to producing inconsistent results with the conditions because 3D shapes have an additional dimension whose distribution significantly differs from that of 2D images and texts. To bridge the domain gap among the three modalities and facilitate multi-modal-conditioned 3D shape generation, we explore representing 3D shapes in a shape-image-text-aligned space. Our framework comprises two models: a Shape-Image-Text-Aligned Variational Auto-Encoder (SITA-VAE) and a conditional Aligned Shape Latent Diffusion Model (ASLDM). The former model encodes the 3D shapes into the shape latent space aligned to the image and text and reconstructs the fine-grained 3D neural fields corresponding to given shape embeddings via the transformer-based decoder. The latter model learns a probabilistic mapping function from the image or text space to the latent shape space. Our extensive experiments demonstrate that our proposed approach can generate higher-quality and more diverse 3D shapes that better semantically conform to the visual or textural conditional inputs, validating the effectiveness of the shape-image-text-aligned space for cross-modality 3D shape generation.

arxiv情報

著者 Zibo Zhao,Wen Liu,Xin Chen,Xianfang Zeng,Rui Wang,Pei Cheng,Bin Fu,Tao Chen,Gang Yu,Shenghua Gao
発行日 2023-06-29 17:17:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク