Multi-Task Faces (MTF) Data Set: A Legally and Ethically Compliant Collection of Face Images for Various Classification Tasks

要約

人間の顔データは、顔認識、年齢推定、性別識別、感情分析、人種分類など、さまざまな分類問題に対処するための大きな可能性を秘めています。
しかし、EU 一般データ保護規則などの最近のプライバシー規制により、人間の画像を収集して研究に使用する方法が制限されています。
その結果、プライバシー規制を満たしていない不適切なデータ収集方法により、以前に公開された人間の顔を含むいくつかのデータセットがインターネットから削除されました。
代替として合成データからなるデータセットが提案されていますが、実際のデータ分布を正確に表すには至っていません。
一方、利用可能なほとんどのデータ セットは 1 つのタスクに対してのみラベル付けされているため、適用可能性が制限されます。
これらの問題に対処するために、私たちはマルチタスク顔 (MTF) 画像データ セットを紹介します。これは、顔認識、人種、性別、年齢の分類を含むさまざまな分類タスク用に設計された、細心の注意を払って厳選された顔画像のコレクションです。
MTF データ セットは、有名人の公開画像を利用し、著作権規制を厳密に遵守することで倫理的に収集されています。
このホワイトペーパーでは、このデータセットを紹介し、その後のデータ収集と処理手順について詳しく説明します。
さらに、前述の分類タスク全体にわたって、MTF データセットに対する 5 つの深層学習 (DL) モデルのパフォーマンスを評価します。
さらに、処理された MTF データとインターネットからクロールされた生のデータに対する DL モデルのパフォーマンスを比較します。
報告された結果は、これらのデータを使用したさらなる研究のベースラインを構成します。
MTF データ セットには、次のリンクからアクセスできます (データ セットを使用する場合は、この論文を引用してください): https://github.com/RamiHaf/MTF_data_set

要約(オリジナル)

Human facial data hold tremendous potential to address a variety of classification problems, including face recognition, age estimation, gender identification, emotion analysis, and race classification. However, recent privacy regulations, such as the EU General Data Protection Regulation and others, have restricted the ways in which human images may be collected and used for research. As a result, several previously published data sets containing human faces have been removed from the internet due to inadequate data collection methods that failed to meet privacy regulations. Data sets consisting of synthetic data have been proposed as an alternative, but they fall short of accurately representing the real data distribution. On the other hand, most available data sets are labeled for just a single task, which limits their applicability. To address these issues, we present the Multi-Task Faces (MTF) image data set, a meticulously curated collection of face images designed for various classification tasks, including face recognition, as well as race, gender, and age classification. The MTF data set has been ethically gathered by leveraging publicly available images of celebrities and strictly adhering to copyright regulations. In this paper, we present this data set and provide detailed descriptions of the followed data collection and processing procedures. Furthermore, we evaluate the performance of five deep learning (DL) models on the MTF data set across the aforementioned classification tasks. Additionally, we compare the performance of DL models over the processed MTF data and over raw data crawled from the internet. The reported results constitute a baseline for further research employing these data. The MTF data set can be accessed through the following link (please cite the present paper if you use the data set): https://github.com/RamiHaf/MTF_data_set

arxiv情報

著者 Rami Haffar,David Sánchez,Josep Domingo-Ferrer
発行日 2023-11-20 16:19:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク