要約
2D 画像からの正確な 3D 顔の再構成は、ヘルスケア、セキュリティ、クリエイティブ業界での応用を可能にするテクノロジーです。
ただし、現在の最先端の方法は、非常に限られた 3D データを使用した教師ありトレーニング、または 2D 画像データを使用した自己教師ありトレーニングのいずれかに依存しています。
このギャップを埋めるために、250K のフォトリアリスティックな画像とそれに対応する形状パラメータおよび深度マップの大規模な合成データセットを生成する方法を紹介します。これを SynthFace と呼びます。
私たちの合成方法では、人間の顔の FLAME 3D Morphable Model (3DMM) からサンプリングされた深度マップで安定した拡散を条件付けし、人種と性別のバランスがとれるように設計された形状の一貫した顔画像の多様なセットを生成できます。
さらに、SynthFace でトレーニングされたディープ ニューラル ネットワークである ControlFace を提案します。これは、3D 監視や手動の 3D アセット作成を必要とせずに、NoW ベンチマークで競争力のあるパフォーマンスを達成します。
完全な SynthFace データセットは、公開と同時に公開されます。
要約(オリジナル)
Accurate 3D face reconstruction from 2D images is an enabling technology with applications in healthcare, security, and creative industries. However, current state-of-the-art methods either rely on supervised training with very limited 3D data or self-supervised training with 2D image data. To bridge this gap, we present a method to generate a large-scale synthesised dataset of 250K photorealistic images and their corresponding shape parameters and depth maps, which we call SynthFace. Our synthesis method conditions Stable Diffusion on depth maps sampled from the FLAME 3D Morphable Model (3DMM) of the human face, allowing us to generate a diverse set of shape-consistent facial images that is designed to be balanced in race and gender. We further propose ControlFace, a deep neural network, trained on SynthFace, which achieves competitive performance on the NoW benchmark, without requiring 3D supervision or manual 3D asset creation. The complete SynthFace dataset will be made publicly available upon publication.
arxiv情報
著者 | Will Rowan,Patrik Huber,Nick Pears,Andrew Keeling |
発行日 | 2023-11-08 14:52:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google