Fair GANs through model rebalancing for extremely imbalanced class distributions

要約

深い生成モデルには大量のトレーニング データが必要です。
これは、データセットの収集、特に基礎となる適切な分布 (人口統計など) を表すデータセットの収集が高価で​​困難な場合があるため、問題となることがよくあります。
これにより、データセットに偏りが生じ、それがモデル内にさらに伝播されます。
モデル分布のバランスを再調整することで、既存のバイアスのある GAN からバイアスのない敵対的生成ネットワーク (GAN) を構築するアプローチを紹介します。
これを行うには、進化的アルゴリズムを使用して既存の不均衡な深い生成モデルからバランスのとれたデータを生成し、このデータを使用してバランスのとれた生成モデルをトレーニングします。
さらに、学習されたクラス分布の等確率からの偏差を最小限に抑えるバイアス軽減損失関数を提案します。
人種的公平性のために Flickr Faces High Quality (FFHQ) データセットでトレーニング中の StyleGAN2 モデルの結果を示し、提案されたアプローチにより、画質を維持しながら公平性指標がほぼ 5 倍向上することがわかります。
さらに、不均衡な CIFAR10 データセットに適用することでアプローチを検証し、同じく 2 倍の大きさのバランスの取れた CIFAR10 データセットでトレーニングした場合と同等の公平性と画質が得られることを示します。
最後に、Frechet 開始距離 (FID) などの伝統的に使用されている画質メトリクスは、クラス分布が不均衡であり、バランスの取れた参照セットが利用できないシナリオには適さないと主張します。

要約(オリジナル)

Deep generative models require large amounts of training data. This often poses a problem as the collection of datasets can be expensive and difficult, in particular datasets that are representative of the appropriate underlying distribution (e.g. demographic). This introduces biases in datasets which are further propagated in the models. We present an approach to construct an unbiased generative adversarial network (GAN) from an existing biased GAN by rebalancing the model distribution. We do so by generating balanced data from an existing imbalanced deep generative model using an evolutionary algorithm and then using this data to train a balanced generative model. Additionally, we propose a bias mitigation loss function that minimizes the deviation of the learned class distribution from being equiprobable. We show results for the StyleGAN2 models while training on the Flickr Faces High Quality (FFHQ) dataset for racial fairness and see that the proposed approach improves on the fairness metric by almost 5 times, whilst maintaining image quality. We further validate our approach by applying it to an imbalanced CIFAR10 dataset where we show that we can obtain comparable fairness and image quality as when training on a balanced CIFAR10 dataset which is also twice as large. Lastly, we argue that the traditionally used image quality metrics such as Frechet inception distance (FID) are unsuitable for scenarios where the class distributions are imbalanced and a balanced reference set is not available.

arxiv情報

著者 Anubhav Jain,Nasir Memon,Julian Togelius
発行日 2023-12-21 16:22:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY, cs.LG パーマリンク