Are generative models fair? A study of racial bias in dermatological image generation

要約

皮膚科のような医学の人種的偏見は、重要な倫理的および臨床的課題を提示しています。
これは、機械学習モデルのトレーニングデータセットに暗い肌のトーンが大幅に過小評価されているため、発生する可能性があります。
皮膚科のバイアスに対処する努力は、データセットの多様性の改善と識別モデルの格差の緩和に焦点を当てていますが、生成モデルに対する人種的バイアスの影響は未熟なままです。
変分自動エンコーダー(VAE)などの生成モデルは、ヘルスケアアプリケーションでますます使用されていますが、多様なスキントーン全体の公平性は現在よく理解されていません。
この研究では、人種的バイアスに関する臨床皮膚科の生成モデルの公平性を評価します。
この目的のために、私たちはまず知覚的損失でvaeを訓練して、異なる肌のトーンで高品質の肌の画像を生成および再構築します。
FitzPatrick17Kデータセットを利用して、人種的バイアスがこれらのモデルの表現とパフォーマンスにどのように影響するかを調べます。
私たちの調査結果は、VAEのパフォーマンスは、予想どおり、表現の影響を受けていること、つまり、肌のトーン表現の増加には、与えられた肌のトーンのパフォーマンスが向上することを示しています。
ただし、表現とは独立して、vaeがより軽い肌の色調に対してより良いパフォーマンスを発揮することも観察しています。
さらに、VAEによって生成された不確実性の推定値は、モデルの公平性を評価するのに効果がありません。
これらの結果は、より代表的な皮膚科学データセットの必要性を強調していますが、そのようなモデルのバイアスの原因をよりよく理解する必要があります。また、信頼できる医療技術の生成モデルの人種バイアスを検出および対処するための不確実性の定量化メカニズムの改善も強調しています。

要約(オリジナル)

Racial bias in medicine, such as in dermatology, presents significant ethical and clinical challenges. This is likely to happen because there is a significant underrepresentation of darker skin tones in training datasets for machine learning models. While efforts to address bias in dermatology have focused on improving dataset diversity and mitigating disparities in discriminative models, the impact of racial bias on generative models remains underexplored. Generative models, such as Variational Autoencoders (VAEs), are increasingly used in healthcare applications, yet their fairness across diverse skin tones is currently not well understood. In this study, we evaluate the fairness of generative models in clinical dermatology with respect to racial bias. For this purpose, we first train a VAE with a perceptual loss to generate and reconstruct high-quality skin images across different skin tones. We utilize the Fitzpatrick17k dataset to examine how racial bias influences the representation and performance of these models. Our findings indicate that VAE performance is, as expected, influenced by representation, i.e. increased skin tone representation comes with increased performance on the given skin tone. However, we also observe, even independently of representation, that the VAE performs better for lighter skin tones. Additionally, the uncertainty estimates produced by the VAE are ineffective in assessing the model’s fairness. These results highlight the need for more representative dermatological datasets, but also a need for better understanding the sources of bias in such model, as well as improved uncertainty quantification mechanisms to detect and address racial bias in generative models for trustworthy healthcare technologies.

arxiv情報

著者 Miguel López-Pérez,Søren Hauberg,Aasa Feragen
発行日 2025-02-19 15:53:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク