Shape Preserving Facial Landmarks with Graph Attention Networks


優れたランドマーク推定アルゴリズムは、大規模な畳み込みニューラル ネットワーク (CNN) の優れた機能を利用して局所的な外観を表現することに基づいています。
この問題に対処するために、CNN と Graph Attention Network リグレッサーのカスケードの組み合わせに基づくモデルを提案します。
これは、グラフ ノードの位置を初期化するためのマルチタスク アプローチと、粗いランドマークから細かいランドマーク記述スキームと組み合わされます。


Top-performing landmark estimation algorithms are based on exploiting the excellent ability of large convolutional neural networks (CNNs) to represent local appearance. However, it is well known that they can only learn weak spatial relationships. To address this problem, we propose a model based on the combination of a CNN with a cascade of Graph Attention Network regressors. To this end, we introduce an encoding that jointly represents the appearance and location of facial landmarks and an attention mechanism to weigh the information according to its reliability. This is combined with a multi-task approach to initialize the location of graph nodes and a coarse-to-fine landmark description scheme. Our experiments confirm that the proposed model learns a global representation of the structure of the face, achieving top performance in popular benchmarks on head pose and landmark estimation. The improvement provided by our model is most significant in situations involving large changes in the local appearance of landmarks.


著者 Andrés Prados-Torreblanca,José M. Buenaposada,Luis Baumela
発行日 2022-10-13 17:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク