Does Data-Efficient Generalization Exacerbate Bias in Foundation Models?

要約

ファウンデーションモデルは、様々な領域においてラベル効率に優れたロバストモデルとして登場している。医療画像診断においては、ラベル付きデータの入手が困難なため、これらのモデルは医療診断の進歩に貢献している。しかし、事前学習中のセンシティブ属性の存在によってバイアスがかかった大量のラベルなしデータを使用することが、モデルの公平性に影響を与えるかどうかは不明である。本研究では、ファウンデーションモデル(RetFound)を、事前学習データセットとは異なる母集団を持つBrazilian Multilabel Ophthalmological Dataset(BRSET)のファインチューニングに適用した場合のバイアスを検証する。教師あり学習と比較したモデル評価では、ファウンデーションモデルは、性別や年齢層を超えて、最大AUCと最小AUCの評価間のギャップを小さくする可能性があることが示された。しかし、データ効率の良い汎化では、データ量が減少するとモデルの偏りが増加する。これらの知見は、限られたデータしかない現実のシナリオでファンデーションモデルを展開する場合、公平性の問題の可能性を考慮すべきであることを示唆している。

要約(オリジナル)

Foundation models have emerged as robust models with label efficiency in diverse domains. In medical imaging, these models contribute to the advancement of medical diagnoses due to the difficulty in obtaining labeled data. However, it is unclear whether using a large amount of unlabeled data, biased by the presence of sensitive attributes during pre-training, influences the fairness of the model. This research examines the bias in the Foundation model (RetFound) when it is applied to fine-tune the Brazilian Multilabel Ophthalmological Dataset (BRSET), which has a different population than the pre-training dataset. The model evaluation, in comparison with supervised learning, shows that the Foundation Model has the potential to reduce the gap between the maximum AUC and minimum AUC evaluations across gender and age groups. However, in a data-efficient generalization, the model increases the bias when the data amount decreases. These findings suggest that when deploying a Foundation Model in real-life scenarios with limited data, the possibility of fairness issues should be considered.

arxiv情報

著者 Dilermando Queiroz,Anderson Carlos,Maíra Fatoretto,Luis Filipe Nakayama,André Anjos,Lilian Berton
発行日 2024-09-02 16:58:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク