要約
自動予測に機械学習を使用する場合、予測の公平性を考慮することが重要です。
機械学習の公平性は、データの偏りやモデルの不正確さが差別的な決定につながらないようにすることを目的としています。
たとえば、公正な機械学習モデルからの予測は、性的指向や民族性などの敏感な変数を差別してはなりません。
トレーニング データは多くの場合、社会調査から取得されます。
社会調査では、多くの場合、データ収集プロセスは層のサンプリングです。
コスト制限があるため。
層サンプルでは、観測値間の独立性の仮定が満たされません。
したがって、機械学習モデルが層の相関関係を考慮していない場合、結果に偏りが生じる可能性があります。
層の割り当てが対象の変数に相関している場合、バイアスが特に大きくなります。
この論文では、両方の問題を同時に処理できるアルゴリズムを提示し、再現可能なシミュレーション研究における公正な機械学習予測の品質に対する層化サンプリングの影響を実証します。
要約(オリジナル)
When using machine learning for automated prediction, it is important to account for fairness in the prediction. Fairness in machine learning aims to ensure that biases in the data and model inaccuracies do not lead to discriminatory decisions. E.g., predictions from fair machine learning models should not discriminate against sensitive variables such as sexual orientation and ethnicity. The training data often in obtained from social surveys. In social surveys, oftentimes the data collection process is a strata sampling, e.g. due to cost restrictions. In strata samples, the assumption of independence between the observation is not fulfilled. Hence, if the machine learning models do not account for the strata correlations, the results may be biased. Especially high is the bias in cases where the strata assignment is correlated to the variable of interest. We present in this paper an algorithm that can handle both problems simultaneously, and we demonstrate the impact of stratified sampling on the quality of fair machine learning predictions in a reproducible simulation study.
arxiv情報
著者 | Jan Pablo Burgard,João Vitor Pamplona |
発行日 | 2024-12-02 14:49:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google