MoSAR: Monocular Semi-Supervised Model for Avatar Reconstruction using Differentiable Shading

要約

ポートレート画像からアバターを再構成することは、マルチメディアに多くの用途がありますが、依然として難しい研究課題です。
1 つの画像から反射率マップとジオメトリを抽出するのは適切ではありません。ジオメトリの復元は 1 対多のマッピング問題であり、反射率と光の絡み合いを解くのは困難です。
ライトステージの制御された条件下で正確な形状と反射率を取得できますが、この方法で大規模なデータセットを取得するにはコストがかかります。
さらに、このタイプのデータのみを使用してトレーニングすると、実際の画像では汎化が不十分になります。
これが、単眼画像から 3D アバターを生成する方法である MoSAR の導入の動機となっています。
私たちは、明るい段階と野生のデータセットの両方から学習することで一般化を改善する半教師ありトレーニングスキームを提案します。
これは、新しい微分可能なシェーディング公式を使用して実現されます。
私たちのアプローチが固有の顔パラメータを効果的に解きほぐし、再点灯可能なアバターを生成することを示します。
その結果、MoSAR は、既存の最先端の方法よりも豊富な皮膚反射率マップのセットを推定し、より現実的なアバターを生成します。
また、FFHQ-UV-Intrinsics という名前の新しいデータセットも紹介します。これは、合計 10,000 の被験者に対して大規模な固有の顔属性 (拡散、鏡面反射、アンビエント オクルージョン、半透明マップ) を提供する初の公開データセットです。
プロジェクトの Web サイトとデータセットは次のリンクから入手できます: https://ubisoftlaforge.github.io/character/mosar

要約(オリジナル)

Reconstructing an avatar from a portrait image has many applications in multimedia, but remains a challenging research problem. Extracting reflectance maps and geometry from one image is ill-posed: recovering geometry is a one-to-many mapping problem and reflectance and light are difficult to disentangle. Accurate geometry and reflectance can be captured under the controlled conditions of a light stage, but it is costly to acquire large datasets in this fashion. Moreover, training solely with this type of data leads to poor generalization with in-the-wild images. This motivates the introduction of MoSAR, a method for 3D avatar generation from monocular images. We propose a semi-supervised training scheme that improves generalization by learning from both light stage and in-the-wild datasets. This is achieved using a novel differentiable shading formulation. We show that our approach effectively disentangles the intrinsic face parameters, producing relightable avatars. As a result, MoSAR estimates a richer set of skin reflectance maps, and generates more realistic avatars than existing state-of-the-art methods. We also introduce a new dataset, named FFHQ-UV-Intrinsics, the first public dataset providing intrisic face attributes at scale (diffuse, specular, ambient occlusion and translucency maps) for a total of 10k subjects. The project website and the dataset are available on the following link: https://ubisoftlaforge.github.io/character/mosar

arxiv情報

著者 Abdallah Dib,Luiz Gustavo Hafemann,Emeline Got,Trevor Anderson,Amin Fadaeinejad,Rafael M. O. Cruz,Marc-Andre Carbonneau
発行日 2023-12-20 15:12:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, 68T07, cs.CV, cs.GR, cs.LG, I.2.10 パーマリンク