ProS: Facial Omni-Representation Learning via Prototype-based Self-Distillation

要約

この論文では、教師なしの顔表現学習のための、プロトタイプベースの自己蒸留 (ProS) と呼ばれる新しいアプローチを紹介します。
既存の教師あり手法は、大量の注釈付きトレーニング顔データに大きく依存しているため、データ収集とプライバシーの問題の点で課題が生じています。
これらの問題に対処するために、ラベルのない顔画像の膨大なコレクションを活用して、包括的な顔のオムニ表現を学習する ProS を提案します。
特に、ProS は、異なる拡張画像 (トリミング、ぼかし、色付けなど) を使用してトレーニングされた 2 つのビジョン トランスフォーマー (教師モデルと生徒モデル) で構成されています。
さらに、主に顔領域で構成される厳選された画像を取得するための拡張機能とともに、顔認識検索システムを構築します。
学習された特徴の識別を強化するために、特徴 (教師または生徒) と学習可能なプロトタイプのセットの間の類似性分布を調整するプロトタイプベースのマッチング損失を導入します。
事前トレーニング後、教師用ビジョン トランスフォーマーは、属性推定、表情認識、ランドマークの位置合わせなどの下流タスクのバックボーンとして機能し、追加レイヤーによる簡単な微調整によって実現されます。
広範な実験により、私たちの方法がフルショット設定と少数ショット設定の両方で、さまざまなタスクで最先端のパフォーマンスを達成できることが実証されました。
さらに、合成顔画像を使用した事前トレーニングを調査し、ProS はこのシナリオでも有望なパフォーマンスを示します。

要約(オリジナル)

This paper presents a novel approach, called Prototype-based Self-Distillation (ProS), for unsupervised face representation learning. The existing supervised methods heavily rely on a large amount of annotated training facial data, which poses challenges in terms of data collection and privacy concerns. To address these issues, we propose ProS, which leverages a vast collection of unlabeled face images to learn a comprehensive facial omni-representation. In particular, ProS consists of two vision-transformers (teacher and student models) that are trained with different augmented images (cropping, blurring, coloring, etc.). Besides, we build a face-aware retrieval system along with augmentations to obtain the curated images comprising predominantly facial areas. To enhance the discrimination of learned features, we introduce a prototype-based matching loss that aligns the similarity distributions between features (teacher or student) and a set of learnable prototypes. After pre-training, the teacher vision transformer serves as a backbone for downstream tasks, including attribute estimation, expression recognition, and landmark alignment, achieved through simple fine-tuning with additional layers. Extensive experiments demonstrate that our method achieves state-of-the-art performance on various tasks, both in full and few-shot settings. Furthermore, we investigate pre-training with synthetic face images, and ProS exhibits promising performance in this scenario as well.

arxiv情報

著者 Xing Di,Yiyu Zheng,Xiaoming Liu,Yu Cheng
発行日 2023-11-07 15:34:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク