3D-SSGAN: Lifting 2D Semantics for 3D-Aware Compositional Portrait Synthesis

要約

既存の 3D 対応ポートレート合成方法は、強力な 3D 一貫性を維持しながら、印象的な高品質の画像を生成できます。
ただし、それらのほとんどは、合成画像に対するきめ細かいパーツレベルの制御をサポートできません。
逆に、一部の GAN ベースの 2D ポートレート合成手法は、顔領域の明確なもつれの解消を実現できますが、3D モデリング機能が欠如しているため、ビューの一貫性を維持できません。
これらの問題に対処するために、私たちは 3D を意識した合成ポートレート画像合成のための新しいフレームワークである 3D-SSGAN を提案します。
まず、シンプルかつ効果的な深度ガイド付き 2D から 3D へのリフティング モジュールが、生成された 2D パーツの特徴とセマンティクスを 3D にマッピングします。
次に、新しい 3D 対応セマンティック マスク レンダラーを備えたボリューム レンダラーを利用して、合成された顔の特徴と対応するマスクが生成されます。
フレームワーク全体は、実際の 2D 画像と合成 2D 画像、およびそれらのセマンティック マスクを区別することによってエンドツーエンドでトレーニングされます。
定量的および定性的評価により、3D ビューの一貫性を維持しながら制御可能なパーツレベルの合成における 3D-SSGAN の優位性が実証されています。

要約(オリジナル)

Existing 3D-aware portrait synthesis methods can generate impressive high-quality images while preserving strong 3D consistency. However, most of them cannot support the fine-grained part-level control over synthesized images. Conversely, some GAN-based 2D portrait synthesis methods can achieve clear disentanglement of facial regions, but they cannot preserve view consistency due to a lack of 3D modeling abilities. To address these issues, we propose 3D-SSGAN, a novel framework for 3D-aware compositional portrait image synthesis. First, a simple yet effective depth-guided 2D-to-3D lifting module maps the generated 2D part features and semantics to 3D. Then, a volume renderer with a novel 3D-aware semantic mask renderer is utilized to produce the composed face features and corresponding masks. The whole framework is trained end-to-end by discriminating between real and synthesized 2D images and their semantic masks. Quantitative and qualitative evaluations demonstrate the superiority of 3D-SSGAN in controllable part-level synthesis while preserving 3D view consistency.

arxiv情報

著者 Ruiqi Liu,Peng Zheng,Ye Wang,Rui Ma
発行日 2024-01-08 09:41:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク