Trusting Fair Data: Leveraging Quality in Fairness-Driven Data Removal Techniques

要約

このペーパーでは、トレーニング セット内の母集団を公平に表現することを目的として、トレーニング セットから特定のデータ ポイントを削除するバイアス緩和手法を扱います。
機械学習モデルはこれらの前処理されたデータセットでトレーニングされ、その予測は公正であることが期待されます。
ただし、このようなアプローチでは関連データが除外される可能性があり、取得したサブセットの信頼性が低下して以降の使用が困難になります。
従来の方法の信頼性を高めるために、公平性に加えてサブセットが満たさなければならない追加の要件と目的、(1) グループの適用範囲、および (2) データ損失の最小化を提案します。
グループ全体を削除すると、測定された公平性が向上する可能性がありますが、すべてのグループを代表しないことは公平であるとは見なされないため、この方法には非常に問題があります。
2 番目の懸念事項では、差別を最小限に抑えながらデータを保持することを主張します。
公平性とデータ損失を考慮した多目的最適化問題を導入することで、これらの目的のバランスをとるパレート最適解を見つける方法論を提案します。
このようなソリューションを特定することで、ユーザーは公平性とデータ品質の間のトレードオフについて情報に基づいた決定を下し、アプリケーションに最適なサブセットを選択できます。

要約(オリジナル)

In this paper, we deal with bias mitigation techniques that remove specific data points from the training set to aim for a fair representation of the population in that set. Machine learning models are trained on these pre-processed datasets, and their predictions are expected to be fair. However, such approaches may exclude relevant data, making the attained subsets less trustworthy for further usage. To enhance the trustworthiness of prior methods, we propose additional requirements and objectives that the subsets must fulfill in addition to fairness: (1) group coverage, and (2) minimal data loss. While removing entire groups may improve the measured fairness, this practice is very problematic as failing to represent every group cannot be considered fair. In our second concern, we advocate for the retention of data while minimizing discrimination. By introducing a multi-objective optimization problem that considers fairness and data loss, we propose a methodology to find Pareto-optimal solutions that balance these objectives. By identifying such solutions, users can make informed decisions about the trade-off between fairness and data quality and select the most suitable subset for their application.

arxiv情報

著者 Manh Khoi Duong,Stefan Conrad
発行日 2024-05-21 16:51:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク