FairBalance: How to Achieve Equalized Odds With Data Pre-processing

要約

この研究は、機械学習ソフトウェアでオッズの公平性を実現するためのシンプルかつ効果的な前処理アプローチを提供することで、ソフトウェア エンジニアリング社会に利益をもたらすことを目指しています。
機械学習ソフトウェアが一か八かのリスクの高い意思決定に使用されることが増えているため、公平性の問題はますます注目を集めています。
既存のすべての公平性の概念の中で、この研究は、常に完全な分類子を許可するという利点を考慮して、「均等化されたオッズ」を特にターゲットにしています。
オッズを均等化するには、すべての人口統計グループのメンバーが異質な虐待を受けないことが必要です。
これまでの研究では、ブラックボックスのような学習プロセス中に均等化されたオッズ関連のメトリクスを最適化するか、直感に従ってトレーニング データを操作していました。
この研究では、均等化オッズ違反の根本原因とそれに対処する方法を研究します。
通常のトレーニング プロセスを変更せずに均等化されたオッズを達成するには、サンプルの重みを使用して各人口統計グループのクラス分布を均等化することが必要な条件であることがわかりました。
さらに、クラス分布が等しいだけでなくバランスがとれる (1:1) ように重み付けされている場合、均等化されたオッズ (平均オッズ差がゼロ) の重要な部分条件が保証されます。
これらの分析に基づいて、計算された重みをトレーニング データに割り当てることで、各人口統計グループのクラス分布のバランスをとる前処理アルゴリズムである FairBalance を提案しました。
8 つの現実世界のデータセットに関する実証結果は、提案された前処理アルゴリズム FairBalance が低い計算オーバーヘッドで、ユーティリティに大きな損害を与えることなく均等化されたオッズを大幅に改善できることを示しています。
FairBalance は、均等化されたオッズという点でも、既存の最先端のアプローチを上回っています。
再利用、複製、検証を容易にするために、スクリプトを https://github.com/hil-se/FairBalance で利用できるようにしました。

要約(オリジナル)

This research seeks to benefit the software engineering society by providing a simple yet effective pre-processing approach to achieve equalized odds fairness in machine learning software. Fairness issues have attracted increasing attention since machine learning software is increasingly used for high-stakes and high-risk decisions. Amongst all the existing fairness notions, this work specifically targets ‘equalized odds’ given its advantage in always allowing perfect classifiers. Equalized odds requires that members of every demographic group do not receive disparate mistreatment. Prior works either optimize for an equalized odds related metric during the learning process like a black-box, or manipulate the training data following some intuition. This work studies the root cause of the violation of equalized odds and how to tackle it. We found that equalizing the class distribution in each demographic group with sample weights is a necessary condition for achieving equalized odds without modifying the normal training process. In addition, an important partial condition for equalized odds (zero average odds difference) can be guaranteed when the class distributions are weighted to be not only equal but also balanced (1:1). Based on these analyses, we proposed FairBalance, a pre-processing algorithm which balances the class distribution in each demographic group by assigning calculated weights to the training data. On eight real-world datasets, our empirical results show that, at low computational overhead, the proposed pre-processing algorithm FairBalance can significantly improve equalized odds without much, if any damage to the utility. FairBalance also outperforms existing state-of-the-art approaches in terms of equalized odds. To facilitate reuse, reproduction, and validation, we made our scripts available at https://github.com/hil-se/FairBalance.

arxiv情報

著者 Zhe Yu,Joymallya Chakraborty,Tim Menzies
発行日 2024-08-21 14:29:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク