Infinite 3D Landmarks: Improving Continuous 2D Facial Landmark Detection

要約

この論文では、最先端の顔ランドマーク検出器の実際の使用における 3 つの重要な問題を検討し、特定のアーキテクチャ上の変更を組み合わせることで精度と時間的安定性がどのように直接的に向上するかを示します。
まず、多くの顔ランドマーク検出器は、前処理ステップとして顔の正規化を必要とします。これは、入力画像内の顔を切り取ってサイズ変更する、個別にトレーニングされたニューラル ネットワークによって実現されます。
この事前トレーニングされたネットワークがランドマーク検出に最適な顔の正規化を実行するという保証はありません。
代わりに、教師なしの方法でランドマーク検出器と並行してトレーニングされる空間変換ネットワークの使用を分析し、最適な顔の正規化とランドマーク検出を共同で学習します。
次に、標準 3D 空間内のランドマークを推論するためにランドマーク予測子の出力ヘッドを変更すると、精度がさらに向上する可能性があることを示します。
予測された 3D ランドマークを画面空間に変換するために、入力画像からカメラの固有要素と頭の姿勢をさらに予測します。
副次的な利点として、2D ランドマークを監視として使用するだけで、特定の画像から 3D 顔の形状を予測できるため、特にランドマークの可視性を決定するのに役立ちます。
最後に、ランドマーク検出器を複数のデータセットで同時にトレーニングすると、データセット間のアノテーションの不一致により、ネットワークは次善の平均値を生成することになります。
この問題に対処するために、セマンティック修正ネットワークを追加することを提案します。
この追加の軽量ニューラル ネットワークは、追加の監視を必要とせずに、ランドマーク検出器と並行してトレーニングされます。
この論文の洞察は、ほとんどの一般的なランドマーク検出器に適用できますが、特に最近提案された連続 2D ランドマーク検出器をターゲットにし、追加のそれぞれが標準ベンチマークの最先端のものに対してどのように有意義な改善につながるかを実証します。

要約(オリジナル)

In this paper, we examine 3 important issues in the practical use of state-of-the-art facial landmark detectors and show how a combination of specific architectural modifications can directly improve their accuracy and temporal stability. First, many facial landmark detectors require face normalization as a preprocessing step, which is accomplished by a separately-trained neural network that crops and resizes the face in the input image. There is no guarantee that this pre-trained network performs the optimal face normalization for landmark detection. We instead analyze the use of a spatial transformer network that is trained alongside the landmark detector in an unsupervised manner, and jointly learn optimal face normalization and landmark detection. Second, we show that modifying the output head of the landmark predictor to infer landmarks in a canonical 3D space can further improve accuracy. To convert the predicted 3D landmarks into screen-space, we additionally predict the camera intrinsics and head pose from the input image. As a side benefit, this allows to predict the 3D face shape from a given image only using 2D landmarks as supervision, which is useful in determining landmark visibility among other things. Finally, when training a landmark detector on multiple datasets at the same time, annotation inconsistencies across datasets forces the network to produce a suboptimal average. We propose to add a semantic correction network to address this issue. This additional lightweight neural network is trained alongside the landmark detector, without requiring any additional supervision. While the insights of this paper can be applied to most common landmark detectors, we specifically target a recently-proposed continuous 2D landmark detector to demonstrate how each of our additions leads to meaningful improvements over the state-of-the-art on standard benchmarks.

arxiv情報

著者 Prashanth Chandran,Gaspard Zoss,Paulo Gotardo,Derek Bradley
発行日 2024-05-30 14:54:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク