FitDiff: Robust monocular 3D facial shape and reflectance estimation using Diffusion Models

要約

3D 顔再構成の目覚ましい進歩により、高精細かつフォトリアリスティックな顔表現が実現されました。
最近、拡散モデルは GAN よりもはるかに優れたパフォーマンスを達成することで、生成手法の機能に革命をもたらしました。
この研究では、拡散ベースの 3D 顔アバター生成モデルである FitDiff を紹介します。
このモデルは、「実際の」2D 顔画像から抽出された ID 埋め込みを利用して、再点灯可能な顔アバターを正確に生成します。
当社のマルチモーダル拡散モデルは、顔の反射率マップ (拡散および鏡面アルベドおよび法線) と形状を同時に出力し、優れた一般化機能を示します。
これは、公開されている顔データセットの注釈付きサブセットのみでトレーニングされ、3D 再構成と組み合わせられます。
知覚損失と顔認識損失を使用した逆拡散プロセスをガイドすることで、典型的な 3D 顔フィッティング アプローチを再検討します。
顔認識埋め込みを条件とした最初の LDM である FitDiff は、一般的なレンダリング エンジンでそのまま使用できる再点灯可能な人間のアバターを再構築し、制約のない顔画像のみから開始して、最先端のパフォーマンスを実現します。

要約(オリジナル)

The remarkable progress in 3D face reconstruction has resulted in high-detail and photorealistic facial representations. Recently, Diffusion Models have revolutionized the capabilities of generative methods by achieving far better performance than GANs. In this work, we present FitDiff, a diffusion-based 3D facial avatar generative model. This model accurately generates relightable facial avatars, utilizing an identity embedding extracted from an ‘in-the-wild’ 2D facial image. Our multi-modal diffusion model concurrently outputs facial reflectance maps (diffuse and specular albedo and normals) and shapes, showcasing great generalization capabilities. It is solely trained on an annotated subset of a public facial dataset, paired with 3D reconstructions. We revisit the typical 3D facial fitting approach by guiding a reverse diffusion process using perceptual and face recognition losses. Being the first LDM conditioned on face recognition embeddings, FitDiff reconstructs relightable human avatars, that can be used as-is in common rendering engines, starting only from an unconstrained facial image, and achieving state-of-the-art performance.

arxiv情報

著者 Stathis Galanakis,Alexandros Lattas,Stylianos Moschoglou,Stefanos Zafeiriou
発行日 2023-12-07 17:35:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク