Non-Invasive Fairness in Learning through the Lens of Data Drift

要約

機械学習 (ML) モデルは、多くの最新のデータ システムを駆動するために広く採用されています。
ML モデルは紛れもなく強力なツールですが、不均衡なパフォーマンスや不公平な動作を示すことがよくあります。
この問題の根本は、多くの場合、さまざまな部分母集団が一般的に異なる傾向を示すという事実にあります。学習アルゴリズムがデータの傾向を特定しようとすると、当然、大多数のグループの傾向が優先され、モデルのパフォーマンスが低く不公平になります。
少数民族。
私たちの目標は、非侵襲的な介入のみを適用することによって、つまりデータや学習アルゴリズムを変更せずに、ML モデルの公平性と信頼性を向上させることです。
私たちは、シンプルだが重要な洞察を使用します。異なる母集団間、さらには学習されたモデルと少数派母集団の間の傾向の発散は、データの一部と訓練されたモデルの間の適合性が低いことを示すデータ ドリフトに似ています。
このドリフトを解決するための 2 つの戦略 (モデル分割と再重み付け) を検討し、基礎となるデータに対するモデルの全体的な適合性を向上させることを目指しています。
私たちのどちらの方法でも、最近提案された適合制約のデータ プロファイリング プリミティブを使用する新しい方法が導入されています。
7 つの現実世界のデータセットに対する実験評価では、DifFair と ConFair の両方が ML モデルの公平性を向上させることが示されています。
ConFair が実際的な影響が最も大きく、他のベースラインよりも優れていますが、DifFair が優位性があるシナリオを示します。
さらに、モデルに依存しない手法として、ConFair は、重みが学習されたモデルとは異なるモデルに対して使用された場合でも堅牢性を維持しますが、これは他の最先端技術には当てはまりません。

要約(オリジナル)

Machine Learning (ML) models are widely employed to drive many modern data systems. While they are undeniably powerful tools, ML models often demonstrate imbalanced performance and unfair behaviors. The root of this problem often lies in the fact that different subpopulations commonly display divergent trends: as a learning algorithm tries to identify trends in the data, it naturally favors the trends of the majority groups, leading to a model that performs poorly and unfairly for minority populations. Our goal is to improve the fairness and trustworthiness of ML models by applying only non-invasive interventions, i.e., without altering the data or the learning algorithm. We use a simple but key insight: the divergence of trends between different populations, and, consecutively, between a learned model and minority populations, is analogous to data drift, which indicates the poor conformance between parts of the data and the trained model. We explore two strategies (model-splitting and reweighing) to resolve this drift, aiming to improve the overall conformance of models to the underlying data. Both our methods introduce novel ways to employ the recently-proposed data profiling primitive of Conformance Constraints. Our experimental evaluation over 7 real-world datasets shows that both DifFair and ConFair improve the fairness of ML models. We demonstrate scenarios where DifFair has an edge, though ConFair has the greatest practical impact and outperforms other baselines. Moreover, as a model-agnostic technique, ConFair stays robust when used against different models than the ones on which the weights have been learned, which is not the case for other state of the art.

arxiv情報

著者 Ke Yang,Alexandra Meliou
発行日 2023-07-25 14:42:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.LG パーマリンク