Shape Preserving Facial Landmarks with Graph Attention Networks

要約

優れたランドマーク推定アルゴリズムは、大規模な畳み込みニューラル ネットワーク (CNN) の優れた機能を利用して局所的な外観を表現することに基づいています。
しかし、それらが弱い空間関係しか学習できないことはよく知られています。
この問題に対処するために、CNN と Graph Attention Network リグレッサーのカスケードの組み合わせに基づくモデルを提案します。
この目的のために、顔のランドマークの外観と位置を共同で表すエンコーディングと、信頼性に応じて情報を重み付けする注意メカニズムを導入します。
これは、グラフ ノードの位置を初期化するためのマルチタスク アプローチと、粗いランドマークから細かいランドマーク記述スキームと組み合わされます。
私たちの実験は、提案されたモデルが顔の構造のグローバルな表現を学習し、頭の姿勢とランドマークの推定に関する一般的なベンチマークで最高のパフォーマンスを達成することを確認しています。
私たちのモデルによって提供される改善は、ランドマークのローカルな外観に大きな変化を伴う状況で最も重要です。

要約(オリジナル)

Top-performing landmark estimation algorithms are based on exploiting the excellent ability of large convolutional neural networks (CNNs) to represent local appearance. However, it is well known that they can only learn weak spatial relationships. To address this problem, we propose a model based on the combination of a CNN with a cascade of Graph Attention Network regressors. To this end, we introduce an encoding that jointly represents the appearance and location of facial landmarks and an attention mechanism to weigh the information according to its reliability. This is combined with a multi-task approach to initialize the location of graph nodes and a coarse-to-fine landmark description scheme. Our experiments confirm that the proposed model learns a global representation of the structure of the face, achieving top performance in popular benchmarks on head pose and landmark estimation. The improvement provided by our model is most significant in situations involving large changes in the local appearance of landmarks.

arxiv情報

著者 Andrés Prados-Torreblanca,José M. Buenaposada,Luis Baumela
発行日 2022-10-13 17:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク