Oversampling Higher-Performing Minorities During Machine Learning Model Training Reduces Adverse Impact Slightly but Also Reduces Model Accuracy

要約

タイトル: 機械学習モデルトレーニング中の高パフォーマンスの少数派にオーバーサンプリングすることは、低い影響をわずかに減らしますが、モデルの正確度も低下させます。

要約:

– 機械学習(ML)を人事評価に採用する企業が増えているが、ML評価の設計や実施における公平性に関する懸念が存在している。
– 監視付きMLモデルはデータのパターンをモデル化するため、MLモデルの予測は、埋め込まれた原因に関係なく、応募者属性のサブグループの違いを反映する傾向がある。
– この研究では、マイノリティ(黒人とヒスパニック)の応募者を過剰・不足サンプリングして、トレーニングデータの不利益率を操作し、トレーニングデータの不利益率がMLモデルの不利益率および精度に影響を与えるかどうかを調べた。
– 求職者(N = 2,501)の自己報告と面接のテキストを使用して、9,702のMLモデルをトレーニングして、スクリーニング決定を予測した。
– トレーニングデータの不利益率は、MLモデルの不利益率と線形に関連していることがわかった。しかしながら、トレーニングデータから不利益を除去することは、MLモデルの不利益率をわずかに減らすだけであり、MLモデルの精度に悪影響を及ぼす傾向があることが判明した。
– 自己報告と面接テキストの両方、実在する(ブートストラップ)または合成の観測値を過剰サンプリングする場合、一貫した結果が観察された。
– この研究は、1つの組織からの限られた予測子セットに依存しているため、より正確なMLモデルでは影響が緩和される可能性がある。

要約(オリジナル)

Organizations are increasingly adopting machine learning (ML) for personnel assessment. However, concerns exist about fairness in designing and implementing ML assessments. Supervised ML models are trained to model patterns in data, meaning ML models tend to yield predictions that reflect subgroup differences in applicant attributes in the training data, regardless of the underlying cause of subgroup differences. In this study, we systematically under- and oversampled minority (Black and Hispanic) applicants to manipulate adverse impact ratios in training data and investigated how training data adverse impact ratios affect ML model adverse impact and accuracy. We used self-reports and interview transcripts from job applicants (N = 2,501) to train 9,702 ML models to predict screening decisions. We found that training data adverse impact related linearly to ML model adverse impact. However, removing adverse impact from training data only slightly reduced ML model adverse impact and tended to negatively affect ML model accuracy. We observed consistent effects across self-reports and interview transcripts, whether oversampling real (i.e., bootstrapping) or synthetic observations. As our study relied on limited predictor sets from one organization, the observed effects on adverse impact may be attenuated among more accurate ML models.

arxiv情報

著者 Louis Hickman,Jason Kuruzovich,Vincent Ng,Kofi Arhin,Danielle Wilson
発行日 2023-04-27 02:53:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CY, cs.LG パーマリンク