要約
ソース データセットにおける人口統計上の偏りは、機械学習モデルの予測における不公平と差別の原因の 1 つであることが示されています。
人口統計上のバイアスの最も顕著なタイプの 1 つは、データセット内の人口統計グループの表現における統計的な不均衡です。
この論文では、他の分野から借用できるものを含む既存の指標をレビューすることによって、これらのバイアスの測定方法を研究します。
これらの指標を分類するための分類法を開発し、適切な指標を選択するための実践的なガイドを提供します。
私たちのフレームワークの有用性を説明し、メトリクスの実際的な特性をさらに理解するために、顔の感情認識 (FER) で使用される 20 個のデータセットのケーススタディを実施し、そこに存在するバイアスを分析します。
私たちの実験結果は、多くの指標が冗長であり、人口統計上の偏りの量を測定するには指標のサブセットを削減すれば十分である可能性があることを示しています。
この論文は、AI および関連分野の研究者にとって、データセットのバイアスを軽減し、AI モデルの公平性と精度を向上させるための貴重な洞察を提供します。
コードは https://github.com/irisdominguez/dataset_bias_metrics で入手できます。
要約(オリジナル)
Demographic biases in source datasets have been shown as one of the causes of unfairness and discrimination in the predictions of Machine Learning models. One of the most prominent types of demographic bias are statistical imbalances in the representation of demographic groups in the datasets. In this paper, we study the measurement of these biases by reviewing the existing metrics, including those that can be borrowed from other disciplines. We develop a taxonomy for the classification of these metrics, providing a practical guide for the selection of appropriate metrics. To illustrate the utility of our framework, and to further understand the practical characteristics of the metrics, we conduct a case study of 20 datasets used in Facial Emotion Recognition (FER), analyzing the biases present in them. Our experimental results show that many metrics are redundant and that a reduced subset of metrics may be sufficient to measure the amount of demographic bias. The paper provides valuable insights for researchers in AI and related fields to mitigate dataset bias and improve the fairness and accuracy of AI models. The code is available at https://github.com/irisdominguez/dataset_bias_metrics.
arxiv情報
著者 | Iris Dominguez-Catena,Daniel Paternain,Mikel Galar |
発行日 | 2024-06-25 16:02:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google