Counterfactual Reasoning for Bias Evaluation and Detection in a Fairness under Unawareness setting

要約

現在の AI 規制では、不公平な結果を防ぐために、アルゴリズムの意思決定プロセスで機密性の高い機能 (性別、人種、宗教など) を破棄する必要があります。
ただし、トレーニング セットに機密性の高い特徴がなくても、アルゴリズムは差別を続ける可能性があります。
実際、機密性の高い機能が省略されている場合 (無意識下での公平性)、いわゆるプロキシ機能との非線形関係を通じて推測される可能性があります。
この作業では、機密性の高い機能が破棄された場合でも保持できる、機械学習モデルの潜在的な隠れたバイアスを明らかにする方法を提案します。
この研究は、反事実的推論を利用することで、ブラックボックス予測子がまだバイアスされているかどうかを明らかにできることを示しています。
詳細には、予測子が否定的な分類結果を提供する場合、私たちのアプローチはまず、肯定的な結果を得るために、識別されたユーザー カテゴリの反事実の例を構築します。
次に、同じ反事実サンプルが外部分類器 (機密性の高い特徴を対象とする) に供給され、肯定的な結果に必要なユーザー特性の変更によって個人が非差別グループに移動したかどうかが明らかになります。
これが発生した場合、意思決定プロセスにおける差別的行動の警告サインである可能性があります。
さらに、元のサンプルからの反事実の偏差を活用して、どの特徴が特定の機密情報のプロキシであるかを判断します。
私たちの実験では、モデルが機密性の高い機能なしでトレーニングされた場合でも、差別的なバイアスがかかることが多いことが示されています。

要約(オリジナル)

Current AI regulations require discarding sensitive features (e.g., gender, race, religion) in the algorithm’s decision-making process to prevent unfair outcomes. However, even without sensitive features in the training set, algorithms can persist in discrimination. Indeed, when sensitive features are omitted (fairness under unawareness), they could be inferred through non-linear relations with the so called proxy features. In this work, we propose a way to reveal the potential hidden bias of a machine learning model that can persist even when sensitive features are discarded. This study shows that it is possible to unveil whether the black-box predictor is still biased by exploiting counterfactual reasoning. In detail, when the predictor provides a negative classification outcome, our approach first builds counterfactual examples for a discriminated user category to obtain a positive outcome. Then, the same counterfactual samples feed an external classifier (that targets a sensitive feature) that reveals whether the modifications to the user characteristics needed for a positive outcome moved the individual to the non-discriminated group. When this occurs, it could be a warning sign for discriminatory behavior in the decision process. Furthermore, we leverage the deviation of counterfactuals from the original sample to determine which features are proxies of specific sensitive information. Our experiments show that, even if the model is trained without sensitive features, it often suffers discriminatory biases.

arxiv情報

著者 Giandomenico Cornacchia,Vito Walter Anelli,Fedelucio Narducci,Azzurra Ragone,Eugenio Di Sciascio
発行日 2023-02-16 10:36:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG パーマリンク