3D Facial Expressions through Analysis-by-Neural-Synthesis

要約

自然界の画像から 3D 顔を再構成する既存の方法は、顔全体の形状を復元することに優れていますが、通常、微妙な表情、極端な表情、非対称な表情、またはめったに観察されない表情を見逃します。
私たちは、SMIRK (Spatial Modeling for Image-based Reconstruction of Kinesics) を使用してこれらの手法を改良し、画像から表情豊かな 3D 顔を忠実に再構築します。
私たちは、既存の手法における 2 つの重要な限界を特定しました。それは、自己教師ありトレーニングの定式化における欠点と、トレーニング画像における表現の多様性の欠如です。
トレーニングでは、ほとんどの方法で微分可能レンダリングを使用して、予測された顔メッシュと入力画像を比較し、さらに大量の追加の損失関数を使用します。
この微分可能なレンダリング損失は、3D 顔のジオメトリ、カメラ、アルベド、照明を最適化するための監視を提供する必要があるだけでなく、これは不適切な最適化問題ですが、レンダリングと入力画像の間のドメイン ギャップが学習プロセスをさらに妨げます。
代わりに、SMIRK は微分可能レンダリングを、レンダリングされた予測メッシュ ジオメトリと入力画像のまばらにサンプリングされたピクセルを考慮して、顔画像を生成するニューラル レンダリング モジュールに置き換えます。
ニューラル レンダリングはサンプリングされた画像ピクセルから色情報を取得するため、ニューラル レンダリング ベースの再構成損失による監視では、ジオメトリのみに焦点を当てることができます。
さらに、トレーニング中にさまざまな表現を持つ入力 ID の画像を生成することができます。
これらは、再構成モデ​​ルへの入力として利用され、グラウンド トゥルース ジオメトリによる監視として使用されます。
これにより、トレーニング データが効果的に強化され、多様な表現の一般化が強化されます。
私たちの定性的、定量的、そして特に知覚的な評価は、SMIRK が正確な表情再構成において新しい最先端のパフォーマンスを達成していることを実証しています。
プロジェクトのウェブページ: https://georgeretsi.github.io/smirk/。

要約(オリジナル)

While existing methods for 3D face reconstruction from in-the-wild images excel at recovering the overall face shape, they commonly miss subtle, extreme, asymmetric, or rarely observed expressions. We improve upon these methods with SMIRK (Spatial Modeling for Image-based Reconstruction of Kinesics), which faithfully reconstructs expressive 3D faces from images. We identify two key limitations in existing methods: shortcomings in their self-supervised training formulation, and a lack of expression diversity in the training images. For training, most methods employ differentiable rendering to compare a predicted face mesh with the input image, along with a plethora of additional loss functions. This differentiable rendering loss not only has to provide supervision to optimize for 3D face geometry, camera, albedo, and lighting, which is an ill-posed optimization problem, but the domain gap between rendering and input image further hinders the learning process. Instead, SMIRK replaces the differentiable rendering with a neural rendering module that, given the rendered predicted mesh geometry, and sparsely sampled pixels of the input image, generates a face image. As the neural rendering gets color information from sampled image pixels, supervising with neural rendering-based reconstruction loss can focus solely on the geometry. Further, it enables us to generate images of the input identity with varying expressions while training. These are then utilized as input to the reconstruction model and used as supervision with ground truth geometry. This effectively augments the training data and enhances the generalization for diverse expressions. Our qualitative, quantitative and particularly our perceptual evaluations demonstrate that SMIRK achieves the new state-of-the art performance on accurate expression reconstruction. Project webpage: https://georgeretsi.github.io/smirk/.

arxiv情報

著者 George Retsinas,Panagiotis P. Filntisis,Radek Danecek,Victoria F. Abrevaya,Anastasios Roussos,Timo Bolkart,Petros Maragos
発行日 2024-04-05 14:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク