要約
我々は、限られた数の2D顔画像(例えば3枚)を利用して、非常に軽いアノテーションで高品質の3D顔モデルを生成する弱教師付き学習によるマルチビュー3D顔再構成(MVR)の問題を考察する。しかし、現在のMVR手法は、多視点画像の特徴を単純に連結するだけであり、重要な領域(目、眉、鼻、口など)にはあまり注意が払われていません。このため、我々はディープフュージョンMVR(DF-MVR)と呼ばれる新しいモデルを提案し、マルチビュー画像から深い特徴を抽出、統合、補正することができるスキップ接続を持つ単一の復号化フレームワークへのマルチビューエンコーディングを設計する。さらに、多視点顔解析ネットワークを開発し、重要な共通顔領域を学習、識別、強調する。最後に、我々のモデルは少数の2次元画像で学習されるが、単一の2次元画像が入力された場合でも、正確な3次元モデルを再構成することが可能である。我々は、様々な多視点顔画像再構成法を評価するために、広範な実験を行っています。Pixel-FaceとBosphorusデータセットに対する実験から、本モデルが優れていることが示された。3Dランドマークのアノテーションを行わない場合、DF-MVRは既存の弱教師付きMVRに対して、Pixel-Faceデータセットで5.2%、Bosphorusデータセットで3.0%のRMSE改善を達成する。3Dランドマークのアノテーションを行った場合、特にPixel-Faceデータセットで優れた性能を達成し、弱教師付きMVRモデルに対して13.4%のRMSE改善となる。
要約(オリジナル)
We consider the problem of Multi-view 3D Face Reconstruction (MVR) with weakly supervised learning that leverages a limited number of 2D face images (e.g. 3) to generate a high-quality 3D face model with very light annotation. Despite their encouraging performance, present MVR methods simply concatenate multi-view image features and pay less attention to critical areas (e.g. eye, brow, nose, and mouth). To this end, we propose a novel model called Deep Fusion MVR (DF-MVR) and design a multi-view encoding to a single decoding framework with skip connections, able to extract, integrate, and compensate deep features with attention from multi-view images. In addition, we develop a multi-view face parse network to learn, identify, and emphasize the critical common face area. Finally, though our model is trained with a few 2D images, it can reconstruct an accurate 3D model even if one single 2D image is input. We conduct extensive experiments to evaluate various multi-view 3D face reconstruction methods. Experiments on Pixel-Face and Bosphorus datasets indicate the superiority of our model. Without 3D landmarks annotation, DF-MVR achieves 5.2% and 3.0% RMSE improvements over the existing best weakly supervised MVRs respectively on Pixel-Face and Bosphorus datasets; with 3D landmarks annotation, DF-MVR attains superior performance particularly on Pixel-Face dataset, leading to 13.4% RMSE improvement over the best weakly supervised MVR model.
arxiv情報
| 著者 | Weiguang Zhao,Chaolong Yang,Jianan Ye,Yuyao Yan,Xi Yang,Kaizhu Huang |
| 発行日 | 2022-07-06 11:55:06+00:00 |
| arxivサイト | arxiv_id(pdf) |