LUCID-GAN: Conditional Generative Models to Locate Unfairness

要約

ほとんどのグループ公平性の概念は、モデルの出力に対して統計的パリティ メトリックを計算することによって非倫理的なバイアスを検出します。
ただし、このアプローチには、哲学的な不一致、相互の非互換性、解釈可能性の欠如など、いくつかの欠点があります。
これらの欠点は、差別の原因に対するさらなる透明性を提供し、公平性の定義と保護された機能の選択に関するアプリオリな決定にとらわれない、補完的なバイアス検出方法の研究に拍車をかけています。
この方向の最近の提案は、LUCID (正準逆計画による不公平性の特定) です。ここでは、入力空間で勾配降下法を実行することによって正準セットが生成され、推奨される出力が与えられたモデルの望ましい入力が明らかになります。
モデルのメカニズムに関するこの情報、つまり特定の出力を得るためにどの特徴値が不可欠であるかによって、内部ロジック内の潜在的な非倫理的なバイアスを暴露することができます。
ここでは、勾配ベースの逆設計ではなく、条件付き生成モデルを介して正規入力を生成する LUCID-GAN を紹介します。
LUCID-GAN には、微分不可能なモデルに適用できること、正規セットが現実的な入力で構成されていることを保証すること、プロキシと交差の区別を評価できることなど、いくつかの利点があります。
私たちは、UCI Adult および COMPAS データセットで LUCID-GAN を経験的に評価し、トレーニング データへのアクセスを必要とせずにブラックボックス モデル内の非倫理的なバイアスを検出できることを示します。

要約(オリジナル)

Most group fairness notions detect unethical biases by computing statistical parity metrics on a model’s output. However, this approach suffers from several shortcomings, such as philosophical disagreement, mutual incompatibility, and lack of interpretability. These shortcomings have spurred the research on complementary bias detection methods that offer additional transparency into the sources of discrimination and are agnostic towards an a priori decision on the definition of fairness and choice of protected features. A recent proposal in this direction is LUCID (Locating Unfairness through Canonical Inverse Design), where canonical sets are generated by performing gradient descent on the input space, revealing a model’s desired input given a preferred output. This information about the model’s mechanisms, i.e., which feature values are essential to obtain specific outputs, allows exposing potential unethical biases in its internal logic. Here, we present LUCID-GAN, which generates canonical inputs via a conditional generative model instead of gradient-based inverse design. LUCID-GAN has several benefits, including that it applies to non-differentiable models, ensures that canonical sets consist of realistic inputs, and allows to assess proxy and intersectional discrimination. We empirically evaluate LUCID-GAN on the UCI Adult and COMPAS data sets and show that it allows for detecting unethical biases in black-box models without requiring access to the training data.

arxiv情報

著者 Andres Algaba,Carmen Mazijn,Carina Prunkl,Jan Danckaert,Vincent Ginis
発行日 2023-07-28 10:37:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG パーマリンク