The (de)biasing effect of GAN-based augmentation methods on skin lesion images

要約

新しい医療データセットは現在、より一般に公開されており、より優れた、より広範な研究が可能になっています。
細心の注意を払って準備されていますが、新しいデータセットは、学習プロセスに影響を与える疑似相関の原因である可能性があります。
さらに、データ収集は通常十分な大きさではなく、多くの場合不均衡です。
データの不均衡を緩和するための1つのアプローチは、Generative Adversarial Networks(GAN)によるデータ拡張を使用して、データセットを高品質の画像で拡張することです。
GANは通常、ターゲットデータと同じバイアスのかかったデータセットでトレーニングされるため、よりバイアスのかかったインスタンスになります。
この作業では、無条件および条件付きGANを調査して、バイアスの継承と、合成データがモデルにどのように影響したかを比較しました。
皮膚病変を伴うよく知られたISICデータセットにバイアスをかける可能性のあるアーティファクトの広範な手動データ注釈を提供しました。
さらに、反事実的バイアスの説明を使用して、実際のデータと合成データの両方でトレーニングされた分類モデルを調べました。
私たちの実験は、GANがバイアスを継承し、時にはそれらを増幅し、さらに強い疑似相関をもたらすことを示しました。
再現性のある科学研究のために、手動のデータ注釈と合成画像が公開されています。

要約(オリジナル)

New medical datasets are now more open to the public, allowing for better and more extensive research. Although prepared with the utmost care, new datasets might still be a source of spurious correlations that affect the learning process. Moreover, data collections are usually not large enough and are often unbalanced. One approach to alleviate the data imbalance is using data augmentation with Generative Adversarial Networks (GANs) to extend the dataset with high-quality images. GANs are usually trained on the same biased datasets as the target data, resulting in more biased instances. This work explored unconditional and conditional GANs to compare their bias inheritance and how the synthetic data influenced the models. We provided extensive manual data annotation of possibly biasing artifacts on the well-known ISIC dataset with skin lesions. In addition, we examined classification models trained on both real and synthetic data with counterfactual bias explanations. Our experiments showed that GANs inherited biases and sometimes even amplified them, leading to even stronger spurious correlations. Manual data annotation and synthetic images are publicly available for reproducible scientific research.

arxiv情報

著者 Agnieszka Mikołajczyk,Sylwia Majchrowska,Sandra Carrasco Limeros
発行日 2022-06-30 10:32:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク