顔ランドマーク検出 (FLD) は大幅な進歩を遂げていますが、既存の FLD 手法は、オクルージョンのある顔や極端な照明条件やポーズの下など、部分的に見えない顔では依然としてパフォーマンスの低下に悩まされています。
この問題に対処するために、非可視領域を検出し、可視部分から欠落している特徴を回復できる新しいトランスフォーマーベースの手法である ORFormer を紹介します。
具体的には、ORFormer は、各イメージ パッチ トークンをメッセンジャー トークンと呼ばれる 1 つの追加の学習可能なトークンに関連付けます。
メッセンジャー トークンは、そのパッチを除くすべての機能を集約します。
次に、私たちの方法は、メッセンジャー トークンによって集約された特徴を使用して、遮蔽されたパッチを回復します。
ORFormer は、回復された機能を活用して、ダウンストリーム FLD タスク用の高品質のヒートマップをコンパイルします。
結果として得られたヒートマップを既存の FLD メソッドに統合することにより、私たちのメソッドは、WFLW や COFW などの困難なデータセットで最先端の技術に比べて有利に機能します。
Although facial landmark detection (FLD) has gained significant progress, existing FLD methods still suffer from performance drops on partially non-visible faces, such as faces with occlusions or under extreme lighting conditions or poses. To address this issue, we introduce ORFormer, a novel transformer-based method that can detect non-visible regions and recover their missing features from visible parts. Specifically, ORFormer associates each image patch token with one additional learnable token called the messenger token. The messenger token aggregates features from all but its patch. This way, the consensus between a patch and other patches can be assessed by referring to the similarity between its regular and messenger embeddings, enabling non-visible region identification. Our method then recovers occluded patches with features aggregated by the messenger tokens. Leveraging the recovered features, ORFormer compiles high-quality heatmaps for the downstream FLD task. Extensive experiments show that our method generates heatmaps resilient to partial occlusions. By integrating the resultant heatmaps into existing FLD methods, our method performs favorably against the state of the arts on challenging datasets such as WFLW and COFW.
著者 | Jui-Che Chiang,Hou-Ning Hu,Bo-Syuan Hou,Chia-Yu Tseng,Yu-Lun Liu,Min-Hung Chen,Yen-Yu Lin |
発行日 | 2025-01-14 14:48:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google