Fake It Without Making It: Conditioned Face Generation for Accurate 3D Face Shape Estimation


正確な 3D 顔形状推定は、ヘルスケア、セキュリティ、クリエイティブ産業に応用できる技術ですが、現在の最先端の方法は、2D 画像データを使用した自己教師ありトレーニングか、非常に限られた 3D データを使用した教師ありトレーニングのいずれかに依存しています。
このギャップを埋めるために、豊富な 2D 顔情報を活用して 3D 空間に情報を提供し、顔画像生成に条件付き安定拡散モデルを使用する新しいアプローチを提案します。
人間の顔の 3D Morphable Model (3DMM) からサンプリングされた深度マップ上で安定した拡散を調整することにより、SynthFace の基礎を形成する、多様で形状の一貫した画像を生成します。
250K のフォトリアリスティックな画像と対応する 3DMM パラメーターからなるこの大規模な合成データセットを紹介します。
さらに、SynthFace でトレーニングされたディープ ニューラル ネットワークである ControlFace を提案します。これは、3D 監視や手動の 3D アセット作成を必要とせずに、NoW ベンチマークで競争力のあるパフォーマンスを達成します。


Accurate 3D face shape estimation is an enabling technology with applications in healthcare, security, and creative industries, yet current state-of-the-art methods either rely on self-supervised training with 2D image data or supervised training with very limited 3D data. To bridge this gap, we present a novel approach which uses a conditioned stable diffusion model for face image generation, leveraging the abundance of 2D facial information to inform 3D space. By conditioning stable diffusion on depth maps sampled from a 3D Morphable Model (3DMM) of the human face, we generate diverse and shape-consistent images, forming the basis of SynthFace. We introduce this large-scale synthesised dataset of 250K photorealistic images and corresponding 3DMM parameters. We further propose ControlFace, a deep neural network, trained on SynthFace, which achieves competitive performance on the NoW benchmark, without requiring 3D supervision or manual 3D asset creation.


著者 Will Rowan,Patrik Huber,Nick Pears,Andrew Keeling
発行日 2023-07-25 16:42:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク