要約
重度のオクルージョンと大きな視野角に対する感度により、既存の単眼 3D 密顔位置合わせ方法の使用シナリオが制限されます。
最先端の 3DMM ベースの手法では、モデルの係数を直接回帰し、実際に顔の形状と方向の手がかりを提供できる低レベルの 2D 空間情報と意味情報を十分に活用しません。
この研究では、画像空間とモデル空間で 3D 顔のジオメトリをモデリングすることで、オクルージョンと視野角の問題をどのように解決できるかを示します。
顔全体を直接予測する代わりに、最初に密な予測によって目に見える顔領域の画像空間特徴を回帰します。
続いて、可視領域の回帰特徴に基づいてモデルの係数を予測し、モーフィング可能なモデルからの顔全体のジオメトリに関する事前知識を活用して、非可視領域を完成させます。
さらに、画像とモデル空間予測の両方の利点を組み合わせて、制約のないシナリオで高い堅牢性と精度を実現する融合ネットワークを提案します。
提案されたフュージョン モジュールのおかげで、私たちの方法は、画像空間アプローチの利点であるオクルージョンや大きなピッチおよびロール ビュー角度に対してだけでなく、モデル空間の利点であるノイズや大きなヨー角に対しても堅牢です。
方法。
包括的な評価により、最先端の方法と比較して、当社の方法の優れたパフォーマンスが実証されています。
3D 密顔位置合わせタスクでは、AFLW2000-3D データセットで 3.80% の NME を達成しました。これは、最先端の方法を 5.5% 上回っています。
コードは https://github.com/lhyfst/DSFNet で入手できます。
要約(オリジナル)
Sensitivity to severe occlusion and large view angles limits the usage scenarios of the existing monocular 3D dense face alignment methods. The state-of-the-art 3DMM-based method, directly regresses the model’s coefficients, underutilizing the low-level 2D spatial and semantic information, which can actually offer cues for face shape and orientation. In this work, we demonstrate how modeling 3D facial geometry in image and model space jointly can solve the occlusion and view angle problems. Instead of predicting the whole face directly, we regress image space features in the visible facial region by dense prediction first. Subsequently, we predict our model’s coefficients based on the regressed feature of the visible regions, leveraging the prior knowledge of whole face geometry from the morphable models to complete the invisible regions. We further propose a fusion network that combines the advantages of both the image and model space predictions to achieve high robustness and accuracy in unconstrained scenarios. Thanks to the proposed fusion module, our method is robust not only to occlusion and large pitch and roll view angles, which is the benefit of our image space approach, but also to noise and large yaw angles, which is the benefit of our model space method. Comprehensive evaluations demonstrate the superior performance of our method compared with the state-of-the-art methods. On the 3D dense face alignment task, we achieve 3.80% NME on the AFLW2000-3D dataset, which outperforms the state-of-the-art method by 5.5%. Code is available at https://github.com/lhyfst/DSFNet.
arxiv情報
著者 | Heyuan Li,Bo Wang,Yu Cheng,Mohan Kankanhalli,Robby T. Tan |
発行日 | 2023-05-19 08:43:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google