RePFormer: Refinement Pyramid Transformer for Robust Facial Landmark Detection

要約

このペーパーでは、堅牢な顔のランドマーク検出のためのRefinement Pyramid Transformer(RePFormer)を紹介します。
ほとんどの顔のランドマーク検出器は、代表的な画像の特徴を学習することに焦点を当てています。
ただし、これらのCNNベースの機能表現は、ランドマークの内部構造、およびランドマークとコンテキストの関係を無視するため、複雑な実世界のシナリオを処理するのに十分な堅牢性を備えていません。
この作業では、ピラミッドの記憶に沿ってランドマーククエリを洗練することとして、顔のランドマーク検出タスクを定式化します。
具体的には、ランドマーク間の相同関係と、ランドマークとクロススケールコンテキスト間の異種関係の両方を構築するために、ピラミッドトランスフォーマーヘッド(PTH)が導入されています。
さらに、動的ランドマークリファインメント(DLR)モジュールは、ランドマーク回帰をエンドツーエンドのリファインメント手順に分解するように設計されており、動的に集約されたクエリが残差座標予測に変換されます。
4つの顔のランドマーク検出ベンチマークとそのさまざまなサブセットに関する広範な実験結果は、フレームワークの優れたパフォーマンスと高い堅牢性を示しています。

要約(オリジナル)

This paper presents a Refinement Pyramid Transformer (RePFormer) for robust facial landmark detection. Most facial landmark detectors focus on learning representative image features. However, these CNN-based feature representations are not robust enough to handle complex real-world scenarios due to ignoring the internal structure of landmarks, as well as the relations between landmarks and context. In this work, we formulate the facial landmark detection task as refining landmark queries along pyramid memories. Specifically, a pyramid transformer head (PTH) is introduced to build both homologous relations among landmarks and heterologous relations between landmarks and cross-scale contexts. Besides, a dynamic landmark refinement (DLR) module is designed to decompose the landmark regression into an end-to-end refinement procedure, where the dynamically aggregated queries are transformed to residual coordinates predictions. Extensive experimental results on four facial landmark detection benchmarks and their various subsets demonstrate the superior performance and high robustness of our framework.

arxiv情報

著者 Jinpeng Li,Haibo Jin,Shengcai Liao,Ling Shao,Pheng-Ann Heng
発行日 2022-07-08 14:12:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク