Multi-Task Faces (MTF) Data Set: A Legally and Ethically Compliant Collection of Face Images for Various Classification Tasks

要約

人間の顔データは、顔認識、年齢の推定、性別の識別、感情分析、人種分類など、分類の問題に取り組むための貴重な可能性を提供します。
ただし、最近のプライバシー規制、特にEUの一般的なデータ保護規則は、研究における人間の画像の収集と使用法を制限しています。
その結果、データ収集の方法とプライバシーの懸念が不十分なため、以前に公開されたいくつかのフェイスデータセットがインターネットから削除されました。
合成データセットは代替として提案されていますが、実際のデータ分布を正確に表すことには及ばない。
さらに、ほとんどの既存のデータセットには、単一のタスクのみにラベルが付けられているため、汎用性が制限されます。
これらの制限に対処するために、レース、性別、年齢による顔認識や分類など、さまざまなタスク用に設計されたマルチタスクフェイス(MTF)データセットを導入し、生成ネットワークのトレーニングを支援します。
MTFデータセットには、640人の132,816個の画像を含む非キュレーションセットと240人の5,246個の画像を含む手動キュレーションセットの2つのバージョンがあります。
両方のデータセットは、著作権規制に完全に準拠して公開されている有名人の画像を使用して、倫理的に調達されました。
データ収集と処理の詳細な説明を提供するとともに、前述の分類タスク全体で5つの深い学習モデルをトレーニングする際のMTFデータセットの有効性を評価しました。
両方のMTFデータセットには、次のリンクからアクセスできます。
https://github.com/ramihaf/mtf_data_set

要約(オリジナル)

Human facial data offers valuable potential for tackling classification problems, including face recognition, age estimation, gender identification, emotion analysis, and race classification. However, recent privacy regulations, particularly the EU General Data Protection Regulation, have restricted the collection and usage of human images in research. As a result, several previously published face data sets have been removed from the internet due to inadequate data collection methods and privacy concerns. While synthetic data sets have been suggested as an alternative, they fall short of accurately representing the real data distribution. Additionally, most existing data sets are labeled for just a single task, which limits their versatility. To address these limitations, we introduce the Multi-Task Face (MTF) data set, designed for various tasks, including face recognition and classification by race, gender, and age, as well as for aiding in training generative networks. The MTF data set comes in two versions: a non-curated set containing 132,816 images of 640 individuals and a manually curated set with 5,246 images of 240 individuals, meticulously selected to maximize their classification quality. Both data sets were ethically sourced, using publicly available celebrity images in full compliance with copyright regulations. Along with providing detailed descriptions of data collection and processing, we evaluated the effectiveness of the MTF data set in training five deep learning models across the aforementioned classification tasks, achieving up to 98.88\% accuracy for gender classification, 95.77\% for race classification, 97.60\% for age classification, and 79.87\% for face recognition with the ConvNeXT model. Both MTF data sets can be accessed through the following link. https://github.com/RamiHaf/MTF_data_set

arxiv情報

著者 Rami Haffar,David Sánchez,Josep Domingo-Ferrer
発行日 2025-04-08 13:38:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク