How Far Can Fairness Constraints Help Recover From Biased Data?

要約

公平な分類に対する一般的な考えは、公平性の制約により精度とのトレードオフが生じ、偏ったデータが悪化する可能性があるというものです。
この考えに反して、Blum & Stangl (2019) は、極端に偏ったデータであっても機会均等制約を伴う公平な分類により、元のデータ分布で最適に正確で公平な分類器を復元できることを示しています。
彼らの結果は、公平性の制約が暗黙的にデータの偏りを修正し、同時に認識されている公平性と精度のトレードオフを克服できることを示しているため、興味深いものです。
彼らのデータ バイアス モデルは、恵まれない人口における過小評価とラベル バイアスをシミュレートし、i.i.d. を使用した定型化されたデータ分布に関する上記の結果を示しています。
データ分布とバイアス パラメータに関する単純な条件下でのラベル ノイズ。
Blum & Stangl (2019) の結果をさまざまな公平性制約、データ バイアス モデル、データ分布、仮説クラスに拡張するための一般的なアプローチを提案します。
私たちはその結果を強化し、定型化された分布に i.i.d. ではなく Massart ノイズのラベルが付いている場合にそれを拡張します。
ノイズ。
公平な拒否オプション分類器を使用して、任意のデータ分布に対して同様の回復結果が得られることを証明します。
さらに、これを任意のデータ分布と任意の仮説クラスに一般化します。つまり、どのようなデータ分布でも、特定の仮説クラスの最適に正確な分類器が公正で堅牢であれば、機会均等制約を伴う公正な分類を通じて復元できることを証明します。
バイアスパラメータが特定の単純な条件を満たすときは常に、バイアスされた分布に基づいて計算されます。
最後に、分類および公平な機械学習パイプラインにおける時変データの偏りへの私たちの技術の応用を示します。

要約(オリジナル)

A general belief in fair classification is that fairness constraints incur a trade-off with accuracy, which biased data may worsen. Contrary to this belief, Blum & Stangl (2019) show that fair classification with equal opportunity constraints even on extremely biased data can recover optimally accurate and fair classifiers on the original data distribution. Their result is interesting because it demonstrates that fairness constraints can implicitly rectify data bias and simultaneously overcome a perceived fairness-accuracy trade-off. Their data bias model simulates under-representation and label bias in underprivileged population, and they show the above result on a stylized data distribution with i.i.d. label noise, under simple conditions on the data distribution and bias parameters. We propose a general approach to extend the result of Blum & Stangl (2019) to different fairness constraints, data bias models, data distributions, and hypothesis classes. We strengthen their result, and extend it to the case when their stylized distribution has labels with Massart noise instead of i.i.d. noise. We prove a similar recovery result for arbitrary data distributions using fair reject option classifiers. We further generalize it to arbitrary data distributions and arbitrary hypothesis classes, i.e., we prove that for any data distribution, if the optimally accurate classifier in a given hypothesis class is fair and robust, then it can be recovered through fair classification with equal opportunity constraints on the biased distribution whenever the bias parameters satisfy certain simple conditions. Finally, we show applications of our technique to time-varying data bias in classification and fair machine learning pipelines.

arxiv情報

著者 Mohit Sharma,Amit Deshpande
発行日 2024-02-07 13:27:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク