ProS: Facial Omni-Representation Learning via Prototype-based Self-Distillation

要約

本稿では、教師なし顔表現学習のための、プロトタイプに基づく自己蒸留(ProS)と呼ばれる新しいアプローチを紹介する。既存の教師あり手法は、大量の注釈付き学習顔データに大きく依存しており、データ収集やプライバシーへの懸念の点で課題がある。これらの問題に対処するため、我々は、ラベル付けされていない顔画像の膨大なコレクションを活用し、包括的な顔全表現を学習するProSを提案する。特に、ProSは2つの視覚変換器(教師モデルと生徒モデル)から構成され、それぞれ異なる拡張画像(切り抜き、ぼかし、着色など)を用いて学習される。さらに、顔認識検索システムを構築し、顔領域を中心に構成されるキュレーション画像を取得する。学習された特徴の識別を強化するために、特徴(教師または生徒)と学習可能なプロトタイプの集合との間の類似性分布を揃えるプロトタイプベースのマッチング損失を導入する。事前学習後、教師ビジョン変換器は、属性推定、表情認識、ランドマークアライメントなどの下流タスクのバックボーンとして機能し、追加レイヤーを用いた簡単な微調整により達成される。広範な実験により、本方法が様々なタスクにおいて、フルショットと少数ショットの両方で最先端の性能を達成することが実証された。さらに、合成顔画像を用いた事前学習についても検討し、ProSはこのシナリオにおいても有望な性能を示した。

要約(オリジナル)

This paper presents a novel approach, called Prototype-based Self-Distillation (ProS), for unsupervised face representation learning. The existing supervised methods heavily rely on a large amount of annotated training facial data, which poses challenges in terms of data collection and privacy concerns. To address these issues, we propose ProS, which leverages a vast collection of unlabeled face images to learn a comprehensive facial omni-representation. In particular, ProS consists of two vision-transformers (teacher and student models) that are trained with different augmented images (cropping, blurring, coloring, etc.). Besides, we build a face-aware retrieval system along with augmentations to obtain the curated images comprising predominantly facial areas. To enhance the discrimination of learned features, we introduce a prototype-based matching loss that aligns the similarity distributions between features (teacher or student) and a set of learnable prototypes. After pre-training, the teacher vision transformer serves as a backbone for downstream tasks, including attribute estimation, expression recognition, and landmark alignment, achieved through simple fine-tuning with additional layers. Extensive experiments demonstrate that our method achieves state-of-the-art performance on various tasks, both in full and few-shot settings. Furthermore, we investigate pre-training with synthetic face images, and ProS exhibits promising performance in this scenario as well.

arxiv情報

著者 Xing Di,Yiyu Zheng,Xiaoming Liu,Yu Cheng
発行日 2023-11-03 14:10:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク