SCE-MAE: Selective Correspondence Enhancement with Masked Autoencoder for Self-Supervised Landmark Estimation

要約

自己教師ありランドマーク推定は、注釈付きデータがない場合にまばらな顔のランドマークを識別するために、局所的に異なる特徴表現の形成を必要とする困難なタスクです。
このタスクに取り組むために、既存の最先端 (SOTA) メソッドは (1) インスタンスレベルの自己教師あり学習 (SSL) パラダイムでトレーニングされたバックボーンから粗い特徴を抽出します。これは、タスクの高密度予測の性質を無視します。
、(2) それらをメモリ集約型のハイパーカラム構成に集約し、(3) 軽量のプロジェクター ネットワークを監視して、空間特徴のすべてのペア間の完全なローカル対応関係を単純に確立します。
このペーパーでは、(1) 当然のことながらランドマーク予測タスクにより適した領域レベルの SSL 手法である MAE を利用し、(2) 高価なハイパーカラムではなくバニラ特徴マップ上で動作するフレームワークである SCE-MAE を紹介します。
(3) シンプルな密度ピーク クラスタリング アルゴリズムと私たちが提案する局所性制約付き忌避損失を利用して、選択された局所的な対応のみを直接絞り込む、対応近似および洗練ブロック (CARB) を採用します。
我々は、広範な実験を通じて、SCE-MAE が非常に効果的かつ堅牢であり、既存の SOTA 手法をランドマーク照合タスクで約 20% ~ 44%、ランドマーク検出タスクで約 9% ~ 15% という大きなマージンで上回っていることを実証しました。

要約(オリジナル)

Self-supervised landmark estimation is a challenging task that demands the formation of locally distinct feature representations to identify sparse facial landmarks in the absence of annotated data. To tackle this task, existing state-of-the-art (SOTA) methods (1) extract coarse features from backbones that are trained with instance-level self-supervised learning (SSL) paradigms, which neglect the dense prediction nature of the task, (2) aggregate them into memory-intensive hypercolumn formations, and (3) supervise lightweight projector networks to naively establish full local correspondences among all pairs of spatial features. In this paper, we introduce SCE-MAE, a framework that (1) leverages the MAE, a region-level SSL method that naturally better suits the landmark prediction task, (2) operates on the vanilla feature map instead of on expensive hypercolumns, and (3) employs a Correspondence Approximation and Refinement Block (CARB) that utilizes a simple density peak clustering algorithm and our proposed Locality-Constrained Repellence Loss to directly hone only select local correspondences. We demonstrate through extensive experiments that SCE-MAE is highly effective and robust, outperforming existing SOTA methods by large margins of approximately 20%-44% on the landmark matching and approximately 9%-15% on the landmark detection tasks.

arxiv情報

著者 Kejia Yin,Varshanth R. Rao,Ruowei Jiang,Xudong Liu,Parham Aarabi,David B. Lindell
発行日 2024-05-28 16:14:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク