要約
顔の再構成と追跡は、AR/VR、ヒューマン マシン インタラクション、および医療アプリケーションにおける多数のアプリケーションのビルディング ブロックです。
これらのアプリケーションのほとんどは、特に、再構築された主題が計量コンテキストに置かれる場合 (つまり、既知のサイズの参照オブジェクトがある場合)、形状の計量的に正しい予測に依存しています。
測定対象の距離と寸法を測定するアプリケーションには、メートル法による再構成も必要です (たとえば、眼鏡フレームに仮想的にフィットさせるため)。
単一の画像から顔を再構築するための最先端の方法は、大規模な 2D 画像データセットで自己管理型の方法でトレーニングされます。
ただし、透視投影の性質上、実際の顔の寸法を再構築することはできず、平均的な人間の顔を予測することでさえ、これらの方法のいくつかよりも計量的な意味で優れています。
顔の実際の形状を学習するには、教師ありトレーニング スキームが必要です。
このタスクには大規模な 3D データセットが存在しないため、小規模および中規模のデータベースに注釈を付けて統合しました。
結果として得られる統合されたデータセットは、依然として 2,000 を超える ID を持つ中規模のデータセットであり、純粋にそれをトレーニングすると過学習につながります。
この目的のために、大規模な 2D 画像データセットで事前トレーニングされた顔認識ネットワークを利用します。これは、さまざまな顔に明確な特徴を提供し、表情、照明、およびカメラの変更に対して堅牢です。
これらの機能を使用して、顔認識ネットワークの堅牢性と一般化を継承して、教師付きの方法で顔形状推定器をトレーニングします。
MICA (MetrIC faceAce) と呼ばれる私たちの方法は、現在の非メトリック ベンチマークとメトリック ベンチマークの両方で、最先端の再構築方法よりも大幅に優れています (平均で 15% および 24% 低い)。
それぞれ、NoW のエラー)。
要約(オリジナル)
Face reconstruction and tracking is a building block of numerous applications in AR/VR, human-machine interaction, as well as medical applications. Most of these applications rely on a metrically correct prediction of the shape, especially, when the reconstructed subject is put into a metrical context (i.e., when there is a reference object of known size). A metrical reconstruction is also needed for any application that measures distances and dimensions of the subject (e.g., to virtually fit a glasses frame). State-of-the-art methods for face reconstruction from a single image are trained on large 2D image datasets in a self-supervised fashion. However, due to the nature of a perspective projection they are not able to reconstruct the actual face dimensions, and even predicting the average human face outperforms some of these methods in a metrical sense. To learn the actual shape of a face, we argue for a supervised training scheme. Since there exists no large-scale 3D dataset for this task, we annotated and unified small- and medium-scale databases. The resulting unified dataset is still a medium-scale dataset with more than 2k identities and training purely on it would lead to overfitting. To this end, we take advantage of a face recognition network pretrained on a large-scale 2D image dataset, which provides distinct features for different faces and is robust to expression, illumination, and camera changes. Using these features, we train our face shape estimator in a supervised fashion, inheriting the robustness and generalization of the face recognition network. Our method, which we call MICA (MetrIC fAce), outperforms the state-of-the-art reconstruction methods by a large margin, both on current non-metric benchmarks as well as on our metric benchmarks (15% and 24% lower average error on NoW, respectively).
arxiv情報
著者 | Wojciech Zielonka,Timo Bolkart,Justus Thies |
発行日 | 2022-10-19 17:29:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google