要約
ファンデーションモデルは主に、非常に多様で大規模なデータセットに対して、教師なしまたは自己教師ありの方法で学習され、様々な下流タスクに広く適用できる。本研究では、このようなモデルが顔認識という特定の領域に適しているかどうかを初めて調査する。さらに、様々なレベルのデータ利用可能性における顔認識へのこれらのモデルの適応を提案し、実証する。学習と微調整のために、複数の基礎モデルと様々なスケールのデータセットを用いて広範な実験を行い、広範なベンチマークで評価を行った。その結果、その汎用性にもかかわらず、事前に訓練された基礎モデルは、このタスクのために特別に訓練された類似のアーキテクチャと比較して、顔認識において性能が劣ることが示された。しかし、基礎モデルを微調整することで、有望な結果が得られ、訓練データが限られている場合には、ゼロから訓練したモデルを上回ることが多い。大規模な顔認識訓練データセットにアクセスできる場合でも、微調整された基礎モデルは、ゼロから訓練されたモデルに匹敵する性能を示す。また、我々の分析では、顔認識におけるバイアスについても調査しており、基礎モデルを使用した場合、いくつかの設定でわずかに高いバイアスが観察された。
要約(オリジナル)
Foundation models are predominantly trained in an unsupervised or self-supervised manner on highly diverse and large-scale datasets, making them broadly applicable to various downstream tasks. In this work, we investigate for the first time whether such models are suitable for the specific domain of face recognition. We further propose and demonstrate the adaptation of these models for face recognition across different levels of data availability. Extensive experiments are conducted on multiple foundation models and datasets of varying scales for training and fine-tuning, with evaluation on a wide range of benchmarks. Our results indicate that, despite their versatility, pre-trained foundation models underperform in face recognition compared to similar architectures trained specifically for this task. However, fine-tuning foundation models yields promising results, often surpassing models trained from scratch when training data is limited. Even with access to large-scale face recognition training datasets, fine-tuned foundation models perform comparably to models trained from scratch, but with lower training computational costs and without relying on the assumption of extensive data availability. Our analysis also explores bias in face recognition, with slightly higher bias observed in some settings when using foundation models.
arxiv情報
著者 | Tahar Chettaoui,Naser Damer,Fadi Boutros |
発行日 | 2024-11-01 12:11:29+00:00 |
arxivサイト | arxiv_id(pdf) |