Robust Model-based Face Reconstruction through Weakly-Supervised Outlier Segmentation

要約

この作業では、モデルを外れ値、つまり、オクルーダーやメイクアップなどのモデルではうまく表現できない領域に適合させないようにすることで、モデルベースの顔再構成を強化することを目指しています。
外れ値をローカライズする際の主な課題は、外れ値が非常に変動しやすく、注釈を付けるのが難しいことです。
この困難な問題を克服するために、顔オートエンコーダーと外れ値セグメンテーションの共同アプローチ (FOCUS) を導入します。
モデルフィッティング。
主な課題は、モデルのフィッティングと外れ値のセグメンテーションが相互に依存しており、一緒に推測する必要があることです。
このニワトリが先か卵が先かという問題を、EM タイプのトレーニング戦略で解決します。この方法では、顔オートエンコーダーが外れ値セグメンテーション ネットワークと共同でトレーニングされます。
これにより相乗効果が生まれ、セグメンテーション ネットワークによって顔エンコーダが外れ値に適合することが防止され、再構成の品質が向上します。
改善された 3D 顔再構成により、セグメンテーション ネットワークは外れ値をより適切に予測できるようになります。
外れ値と眉毛などの適合が難しい領域との間のあいまいさを解決するために、モデル適合における系統的バイアスを測定する合成データから事前統計を構築します。
NoW テストセットでの実験は、3D アノテーションなしでトレーニングされたすべてのベースラインの中で、FOCUS が SOTA 3D 顔再構成パフォーマンスを達成することを示しています。
さらに、CelebA-HQ と AR データベースに関する結果は、セグメンテーション アノテーションなしでトレーニングされているにもかかわらず、セグメンテーション ネットワークがオクルーダーを正確にローカライズできることを示しています。

要約(オリジナル)

In this work, we aim to enhance model-based face reconstruction by avoiding fitting the model to outliers, i.e. regions that cannot be well-expressed by the model such as occluders or make-up. The core challenge for localizing outliers is that they are highly variable and difficult to annotate. To overcome this challenging problem, we introduce a joint Face-autoencoder and outlier segmentation approach (FOCUS).In particular, we exploit the fact that the outliers cannot be fitted well by the face model and hence can be localized well given a high-quality model fitting. The main challenge is that the model fitting and the outlier segmentation are mutually dependent on each other, and need to be inferred jointly. We resolve this chicken-and-egg problem with an EM-type training strategy, where a face autoencoder is trained jointly with an outlier segmentation network. This leads to a synergistic effect, in which the segmentation network prevents the face encoder from fitting to the outliers, enhancing the reconstruction quality. The improved 3D face reconstruction, in turn, enables the segmentation network to better predict the outliers. To resolve the ambiguity between outliers and regions that are difficult to fit, such as eyebrows, we build a statistical prior from synthetic data that measures the systematic bias in model fitting. Experiments on the NoW testset demonstrate that FOCUS achieves SOTA 3D face reconstruction performance among all baselines that are trained without 3D annotation. Moreover, our results on CelebA-HQ and the AR database show that the segmentation network can localize occluders accurately despite being trained without any segmentation annotation.

arxiv情報

著者 Chunlu Li,Andreas Morel-Forster,Thomas Vetter,Bernhard Egger,Adam Kortylewski
発行日 2023-03-21 15:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク