AvatarMMC: 3D Head Avatar Generation and Editing with Multi-Modal Conditioning

要約

3D 敵対的生成ネットワーク (GAN) と潜在拡散モデル (LDM) に基づくマルチモーダル コンディショニングによる 3D ヘッド アバターの生成と編集のアプローチを紹介します。
3D GAN は、単一条件または条件なしで高品質の頭部アバターを生成できます。
ただし、異なるモダリティの複数の条件に準拠したサンプルを生成することは困難です。
一方、LDM は複雑な条件付き分布の学習に優れています。
この目的を達成するために、LDM の調整機能を活用して、事前トレーニングされた 3D GAN の潜在空間に対するマルチモーダル制御を可能にすることを提案します。
私たちの方法では、RGB 入力、セグメンテーション マスク、グローバル属性などの制御信号を組み合わせて、3D ヘッド アバターを生成および編集できます。
これにより、合成アバターの生成と編集をグローバルとローカルの両方でより適切に制御できるようになります。
実験の結果、私たちが提案したアプローチは、生成および編集タスクにおいて質的および量的に、GAN ベースのみのアプローチよりも優れたパフォーマンスを発揮することが示されています。
私たちの知る限り、私たちのアプローチは、3D アバターの生成と編集にマルチモーダル コンディショニングを導入した最初のものです。
\\href{avatarmmc-sig24.github.io}{プロジェクト ページ}

要約(オリジナル)

We introduce an approach for 3D head avatar generation and editing with multi-modal conditioning based on a 3D Generative Adversarial Network (GAN) and a Latent Diffusion Model (LDM). 3D GANs can generate high-quality head avatars given a single or no condition. However, it is challenging to generate samples that adhere to multiple conditions of different modalities. On the other hand, LDMs excel at learning complex conditional distributions. To this end, we propose to exploit the conditioning capabilities of LDMs to enable multi-modal control over the latent space of a pre-trained 3D GAN. Our method can generate and edit 3D head avatars given a mixture of control signals such as RGB input, segmentation masks, and global attributes. This provides better control over the generation and editing of synthetic avatars both globally and locally. Experiments show that our proposed approach outperforms a solely GAN-based approach both qualitatively and quantitatively on generation and editing tasks. To the best of our knowledge, our approach is the first to introduce multi-modal conditioning to 3D avatar generation and editing. \\href{avatarmmc-sig24.github.io}{Project Page}

arxiv情報

著者 Wamiq Reyaz Para,Abdelrahman Eldesokey,Zhenyu Li,Pradyumna Reddy,Jiankang Deng,Peter Wonka
発行日 2024-02-08 16:41:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク