Self-supervised Re-renderable Facial Albedo Reconstruction from Single Image

要約

1枚の画像から高忠実度の3D顔画像を再構成することは、完全な顔情報の欠如と3D顔と2D画像間の領域ギャップのために、非常に困難なタスクである。さらに、再レンダリング可能な3D顔を得ることは、多くのアプリケーションで強く望まれる特性となっており、「再レンダリング可能」という用語は、顔のテクスチャが空間的に完全で、環境照明と切り離されていることを要求している。この論文では、我々は野生のシングルビュー画像から高品質で再レンダリング可能な顔のアルベドを再構成するための新しい自己教師付きディープラーニングフレームワークを提案する。我々の主な考え方は、まず3DMMプロキシモデルに基づく事前生成モジュールを利用して、アンラップテクスチャとグローバルにパラメータ化された事前アルベドを生成することである。次に、詳細化モジュールを適用し、高周波の詳細度と完全性の両方を持つ最終的なテクスチャを合成する。さらに、顔のテクスチャを照明と分離するために、我々は新しい詳細な照明表現を提案し、詳細なアルベドと一緒に再構成する。また、この2つの要素の分離を容易にするために、アルベドマップと照明マップの両方に対して、いくつかの新しい正則化損失を設計する。最後に、微分可能なレンダラーを活用することで、各顔の属性は自己教師あり方式で、地上の顔の反射率を必要とせずに共同学習させることができる。本フレームワークは、困難なデータセットに対する広範な比較とアブレーション研究により、最先端のアプローチを凌駕することを実証しています。

要約(オリジナル)

Reconstructing high-fidelity 3D facial texture from a single image is a quite challenging task due to the lack of complete face information and the domain gap between the 3D face and 2D image. Further, obtaining re-renderable 3D faces has become a strongly desired property in many applications, where the term ‘re-renderable’ demands the facial texture to be spatially complete and disentangled with environmental illumination. In this paper, we propose a new self-supervised deep learning framework for reconstructing high-quality and re-renderable facial albedos from single-view images in-the-wild. Our main idea is to first utilize a prior generation module based on the 3DMM proxy model to produce an unwrapped texture and a globally parameterized prior albedo. Then we apply a detail refinement module to synthesize the final texture with both high-frequency details and completeness. To further make facial textures disentangled with illumination, we propose a novel detailed illumination representation which is reconstructed with the detailed albedo together. We also design several novel regularization losses on both the albedo and illumination maps to facilitate the disentanglement of these two factors. Finally, by leveraging a differentiable renderer, each face attribute can be jointly trained in a self-supervised manner without requiring ground-truth facial reflectance. Extensive comparisons and ablation studies on challenging datasets demonstrate that our framework outperforms state-of-the-art approaches.

arxiv情報

著者 Mingxin Yang,Jianwei Guo,Zhanglin Cheng,Xiaopeng Zhang,Dong-Ming Yan
発行日 2022-06-06 08:52:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR パーマリンク