The Impact of Balancing Real and Synthetic Data on Accuracy and Fairness in Face Recognition

要約

近年、ディープ顔認識の進歩により、大規模で多様なデータセットに対する需要が高まっています。
それにもかかわらず、これらのデータセットを作成するために取得された本物のデータは通常、Web から取得されており、多くの場合、ユーザーの明示的な同意がないために重大なプライバシー問題が発生する可能性があります。
さらに、異なる人口統計グループからの画像の分布には自然な不均衡があるため、人口統計的にバランスの取れた大規模なデータセットを取得することはさらに困難になります。
この論文では、人口統計学的にバランスの取れた本物のデータと合成データが、個別または組み合わせて、顔認識モデルの精度と公平性に及ぼす影響を調査します。
当初は、対応する合成データセットの人口統計表現のバランスをとるために、いくつかの生成手法が使用されました。
次に、合成画像と本物の画像 (の組み合わせ) を使用して、最先端の顔エンコーダーがトレーニングされ、評価されました。
私たちの調査結果は、次の 2 つの主要な点を強調しています。(i) 単独で使用するか、本物のデータのサブセットと組み合わせて使用​​するかにかかわらず、精度を高める上で、拡散ベースのモデルによって生成されたトレーニング データの有効性が向上すること、(ii) 事前のバランスのとれたデータを組み込むことによる影響が最小限であること
– 公平性に関するトレーニング済みの生成手法 (結合されたデータセットを使用してテストされたほぼすべてのシナリオで、不均衡な本物のデータセットと比較した場合でも、公平性スコアは変わらないか悪化しました)。
ソース コードとデータは、再現性のために \url{https://cutt.ly/AeQy1K5G} で入手できます。

要約(オリジナル)

Over the recent years, the advancements in deep face recognition have fueled an increasing demand for large and diverse datasets. Nevertheless, the authentic data acquired to create those datasets is typically sourced from the web, which, in many cases, can lead to significant privacy issues due to the lack of explicit user consent. Furthermore, obtaining a demographically balanced, large dataset is even more difficult because of the natural imbalance in the distribution of images from different demographic groups. In this paper, we investigate the impact of demographically balanced authentic and synthetic data, both individually and in combination, on the accuracy and fairness of face recognition models. Initially, several generative methods were used to balance the demographic representations of the corresponding synthetic datasets. Then a state-of-the-art face encoder was trained and evaluated using (combinations of) synthetic and authentic images. Our findings emphasized two main points: (i) the increased effectiveness of training data generated by diffusion-based models in enhancing accuracy, whether used alone or combined with subsets of authentic data, and (ii) the minimal impact of incorporating balanced data from pre-trained generative methods on fairness (in nearly all tested scenarios using combined datasets, fairness scores remained either unchanged or worsened, even when compared to unbalanced authentic datasets). Source code and data are available at \url{https://cutt.ly/AeQy1K5G} for reproducibility.

arxiv情報

著者 Andrea Atzori,Pietro Cosseddu,Gianni Fenu,Mirko Marras
発行日 2024-09-04 16:50:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク