要約
機械学習モデルは、データに存在するバイアスをキャプチャして増幅することができ、ソーシャルグループ間で異なるテストパフォーマンスにつながります。
これらのバイアスをよりよく理解し、評価し、軽減するには、モデルの設計の選択とデータ分布プロパティがどのようにバイアスに貢献するかについてのより深い理論的理解が必要です。
この作業では、ランダム投影の有無にかかわらず、尾根回帰のコンテキストで正確な分析理論を貢献します。以前のモデルは、単純化されたレジームでニューラルネットワークをフィードします。
私たちの理論は、機械学習バイアスの統一された厳密な説明を提供し、さまざまな特徴およびパラメーター体制におけるバイアス増幅や少数派グループバイアスなどの現象に関する洞察を提供します。
たとえば、バイアス増幅を避けるために最適な正則化ペナルティまたはトレーニング時間がある可能性があり、パラメーター化の増加に伴うグループ間でテストエラーに違いがある可能性があることがわかります。
重要なことに、私たちの理論的予測は、機械学習バイアスに関する文献で報告されている経験的観察と一致しています。
合成および半合成データセットに関する理論を広範囲に経験的に検証します。
要約(オリジナル)
Machine learning models can capture and amplify biases present in data, leading to disparate test performance across social groups. To better understand, evaluate, and mitigate these biases, a deeper theoretical understanding of how model design choices and data distribution properties contribute to bias is needed. In this work, we contribute a precise analytical theory in the context of ridge regression, both with and without random projections, where the former models feedforward neural networks in a simplified regime. Our theory offers a unified and rigorous explanation of machine learning bias, providing insights into phenomena such as bias amplification and minority-group bias in various feature and parameter regimes. For example, we observe that there may be an optimal regularization penalty or training time to avoid bias amplification, and there can be differences in test error between groups that are not alleviated with increased parameterization. Importantly, our theoretical predictions align with empirical observations reported in the literature on machine learning bias. We extensively empirically validate our theory on synthetic and semi-synthetic datasets.
arxiv情報
著者 | Arjun Subramonian,Samuel J. Bell,Levent Sagun,Elvis Dohmatob |
発行日 | 2025-03-18 17:56:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google