Shedding light on underrepresentation and Sampling Bias in machine learning

要約

トレーニングされた機械学習 (ML) モデルの公平性を忠実に評価するには、差別を正確に測定することが重要です。
差別の測定における偏りは、既存の格差の拡大または過小評価につながります。
バイアスの原因はいくつか存在しますが、機械学習から生じるバイアスは、異なるグループ(例:女性対男性、白人対黒人など)によって均等に生まれると想定されています。
しかし、異なる集団によって異なる形で偏見が生まれれば、特定の下位集団に対する差別が悪化する可能性があります。
サンプリング バイアスは、サンプリング手順によるバイアスを説明するために文献で一貫して使用されていません。
この論文では、明確に定義されたサンプリング バイアスの変形、つまりサンプル サイズ バイアス (SSB) と過小代表バイアス (URB) を導入することで、この用語の曖昧さをなくすことを試みます。
また、差別がどのように分散、偏見、ノイズに分解されるのかも示します。
最後に、過小評価されたグループからより多くのサンプルを収集することで差別に対処できるという、一般的に受け入れられている緩和アプローチに異議を唱えます。

要約(オリジナル)

Accurately measuring discrimination is crucial to faithfully assessing fairness of trained machine learning (ML) models. Any bias in measuring discrimination leads to either amplification or underestimation of the existing disparity. Several sources of bias exist and it is assumed that bias resulting from machine learning is born equally by different groups (e.g. females vs males, whites vs blacks, etc.). If, however, bias is born differently by different groups, it may exacerbate discrimination against specific sub-populations. Sampling bias, is inconsistently used in the literature to describe bias due to the sampling procedure. In this paper, we attempt to disambiguate this term by introducing clearly defined variants of sampling bias, namely, sample size bias (SSB) and underrepresentation bias (URB). We show also how discrimination can be decomposed into variance, bias, and noise. Finally, we challenge the commonly accepted mitigation approach that discrimination can be addressed by collecting more samples of the underrepresented group.

arxiv情報

著者 Sami Zhioua,Rūta Binkytė
発行日 2023-06-08 09:34:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG パーマリンク