要約
最近、1D ランドマーク表現に基づくヒートマップ回帰手法が、顔のランドマークの位置を特定する際に顕著なパフォーマンスを示しています。
しかし、以前の方法では、顔のランドマークを追跡するための複数のランドマークの連続的および構造モデリングに関する 1D ランドマーク表現の優れた可能性についての深い調査が無視されていました。
この制限に対処するために、我々は Transformer アーキテクチャ、つまり 1DFormer を提案します。これは、顔のランドマークを追跡するために、時間的次元と空間的次元の両方でトークン通信を介してランドマークの動的パターンと幾何学的パターンをキャプチャすることによって、有益な 1D ランドマーク表現を学習します。
時間モデリングでは、反復トークン混合メカニズム、軸ランドマーク位置埋め込みメカニズム、および長期ランドマークのダイナミクスを適応的かつ堅牢に 1D 表現に埋め込むための信頼性を高めたマルチヘッド アテンション メカニズムを提案します。
構造モデリングでは、1D畳み込みを介した空間次元でのトークン通信によるランドマークの1D表現の改良として、コンポーネントレベルおよびグローバルレベルの顔構造パターンをエンコードするグループ内およびグループ間の構造モデリングメカニズムを設計します。
層。
300VW および TF データベースの実験結果は、1DFormer が長距離の連続パターンと固有の顔構造をモデル化し、ランドマーク シーケンスの有益な 1D 表現を学習し、顔のランドマーク追跡で最先端のパフォーマンスを達成することに成功したことを示しています。
。
要約(オリジナル)
Recently, heatmap regression methods based on 1D landmark representations have shown prominent performance on locating facial landmarks. However, previous methods ignored to make deep explorations on the good potentials of 1D landmark representations for sequential and structural modeling of multiple landmarks to track facial landmarks. To address this limitation, we propose a Transformer architecture, namely 1DFormer, which learns informative 1D landmark representations by capturing the dynamic and the geometric patterns of landmarks via token communications in both temporal and spatial dimensions for facial landmark tracking. For temporal modeling, we propose a recurrent token mixing mechanism, an axis-landmark-positional embedding mechanism, as well as a confidence-enhanced multi-head attention mechanism to adaptively and robustly embed long-term landmark dynamics into their 1D representations; for structure modeling, we design intra-group and inter-group structure modeling mechanisms to encode the component-level as well as global-level facial structure patterns as a refinement for the 1D representations of landmarks through token communications in the spatial dimension via 1D convolutional layers. Experimental results on the 300VW and the TF databases show that 1DFormer successfully models the long-range sequential patterns as well as the inherent facial structures to learn informative 1D representations of landmark sequences, and achieves state-of-the-art performance on facial landmark tracking.
arxiv情報
| 著者 | Shi Yin,Shijie Huan,Shangfei Wang,Jinshui Hu,Tao Guo,Bing Yin,Baocai Yin,Cong Liu |
| 発行日 | 2024-02-01 09:33:00+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google