Non-Invasive Fairness in Learning through the Lens of Data Drift

要約

タイトル:データドリフトの観点から見た、学習における非侵襲性の公正性

要約:
– 機械学習(ML)モデルは、多くの現代的なデータシステムを進めるために広く使用されています。
– しかし、MLモデルは、しばしば不均衡なパフォーマンスや不公正な行動を示します。
– この問題の根本的な原因は、異なるサブポピュレーションが一般的に異なる傾向を示すことにあります。
– つまり、学習アルゴリズムがデータの傾向を特定しようとすると、自然に多数派グループの傾向を優先するため、少数派集団に対して不公正かつ弱いパフォーマンスを発揮するモデルが生成されます。
– 我々の目的は、データや学習アルゴリズムを変更せずに、 MLモデルの公正性と信頼性を向上させることです。
– 我々は、異なる集団の傾向の発散と、それに続いて学習されたモデルと少数派集団の間の発散が、データドリフトに類似していることに着目しました。
– そのため、モデルの適合性を向上させるために、モデル分割と再調整の2つの戦略を探究しました。
– その両方の方法は、最近提案されたデータプロファイリングの原始的な整合性制約を適用する新しい方法を導入します。
– 7つの実際のデータセットに対する評価実験では、DifFairとConFairの両方がMLモデルの公正性を向上させることができました。
– DifFairは優れたシナリオがある一方、ConFairは実際的な影響が最も大きく、他のベースラインを上回っています。
– さらに、モデルに依存しないテクニックであるConFairは、重みが学習されたモデル以外でも堅牢であり、他の最先端の手法ではそのようなことができません。

要約(オリジナル)

Machine Learning (ML) models are widely employed to drive many modern data systems. While they are undeniably powerful tools, ML models often demonstrate imbalanced performance and unfair behaviors. The root of this problem often lies in the fact that different subpopulations commonly display divergent trends: as a learning algorithm tries to identify trends in the data, it naturally favors the trends of the majority groups, leading to a model that performs poorly and unfairly for minority populations. Our goal is to improve the fairness and trustworthiness of ML models by applying only non-invasive interventions, i.e., without altering the data or the learning algorithm. We use a simple but key insight: the divergence of trends between different populations, and, consecutively, between a learned model and minority populations, is analogous to data drift, which indicates the poor conformance between parts of the data and the trained model. We explore two strategies (model-splitting and reweighing) to resolve this drift, aiming to improve the overall conformance of models to the underlying data. Both our methods introduce novel ways to employ the recently-proposed data profiling primitive of Conformance Constraints. Our experimental evaluation over 7 real-world datasets shows that both DifFair and ConFair improve the fairness of ML models. We demonstrate scenarios where DifFair has an edge, though ConFair has the greatest practical impact and outperforms other baselines. Moreover, as a model-agnostic technique, ConFair stays robust when used against different models than the ones on which the weights have been learned, which is not the case for other state of the art.

arxiv情報

著者 Ke Yang,Alexandra Meliou
発行日 2023-04-05 13:34:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.DB, cs.LG パーマリンク