Toward responsible face datasets: modeling the distribution of a disentangled latent space for sampling face images from demographic groups

要約

最近、一部の最新の顔認識システムが特定の人口統計グループを差別し、性別や出身地などのさまざまな顔の属性に関して不当な注目を招く可能性があることが明らかになりました。
主な理由は、これらのモデルのトレーニングに使用されるデータセット内の偏り、不均衡な人口統計です。
残念ながら、さまざまな人口統計に関して大規模でバランスのとれたデータセットを収集することは現実的ではありません。
この論文では、代替手段として、深層学習ベースの顔認識モデルのトレーニング、正規化、または評価に使用できる、バランスのとれた、おそらくバイアスのない合成データセットの生成を調査します。
私たちは、StyleGAN 潜在空間のもつれの解けた投影をモデリングおよびサンプリングする簡単な方法を使用して、人口統計グループの任意の組み合わせ (例: $hispanic- Female$) を生成することを提案します。
私たちの実験では、人口統計グループのあらゆる組み合わせを効果的に合成でき、そのアイデンティティは元のトレーニング データセットとは異なることが示されました。
ソースコードも公開しました。

要約(オリジナル)

Recently, it has been exposed that some modern facial recognition systems could discriminate specific demographic groups and may lead to unfair attention with respect to various facial attributes such as gender and origin. The main reason are the biases inside datasets, unbalanced demographics, used to train theses models. Unfortunately, collecting a large-scale balanced dataset with respect to various demographics is impracticable. In this paper, we investigate as an alternative the generation of a balanced and possibly bias-free synthetic dataset that could be used to train, to regularize or to evaluate deep learning-based facial recognition models. We propose to use a simple method for modeling and sampling a disentangled projection of a StyleGAN latent space to generate any combination of demographic groups (e.g. $hispanic-female$). Our experiments show that we can synthesis any combination of demographic groups effectively and the identities are different from the original training dataset. We also released the source code.

arxiv情報

著者 Parsa Rahimi,Christophe Ecabert,Sebastien Marcel
発行日 2023-09-15 14:42:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク