Fair mapping

要約

モデルの望ましくないバイアスの影響を軽減するために、入力データセットを前処理して、機密属性の推論を防ぐことで差別のリスクを軽減するいくつかのアプローチが提案されています。
残念なことに、これらの前処理方法のほとんどは、元の分布とは大きく異なる新しい分布を生成することになり、しばしば非現実的なデータにつながります。
副作用として、この新しいデータ分布は、正確な予測を行うために既存のモデルを再トレーニングする必要があることを意味します。
この問題に対処するために、保護されたグループの分布を選択されたターゲット グループに変換することに基づいて、機密情報の推論を防ぐことを目的とする追加のプライバシー制約を使用して、公正なマッピングと呼ぶ新しい前処理方法を提案します。
属性。
より正確には、Wasserstein GAN および AttGAN フレームワークの最近の成果を活用して、属性推論に対する保護を実施するディスクリミネーターと組み合わせたデータ ポイントの最適な転送を実現します。
私たちが提案するアプローチは、データの解釈可能性を維持し、機密グループを正確に定義しなくても使用できます。
さらに、私たちのアプローチは、既存の最先端のアプローチをモデル化するように特化できるため、これらの方法に関する統一的な見解を提案できます。
最後に、実際のデータセットと合成データセットでのいくつかの実験は、データの歪みを制限し、後続のデータ分析タスクの公平性を向上させながら、私たちのアプローチが機密属性を隠すことができることを示しています。

要約(オリジナル)

To mitigate the effects of undesired biases in models, several approaches propose to pre-process the input dataset to reduce the risks of discrimination by preventing the inference of sensitive attributes. Unfortunately, most of these pre-processing methods lead to the generation a new distribution that is very different from the original one, thus often leading to unrealistic data. As a side effect, this new data distribution implies that existing models need to be re-trained to be able to make accurate predictions. To address this issue, we propose a novel pre-processing method, that we coin as fair mapping, based on the transformation of the distribution of protected groups onto a chosen target one, with additional privacy constraints whose objective is to prevent the inference of sensitive attributes. More precisely, we leverage on the recent works of the Wasserstein GAN and AttGAN frameworks to achieve the optimal transport of data points coupled with a discriminator enforcing the protection against attribute inference. Our proposed approach, preserves the interpretability of data and can be used without defining exactly the sensitive groups. In addition, our approach can be specialized to model existing state-of-the-art approaches, thus proposing a unifying view on these methods. Finally, several experiments on real and synthetic datasets demonstrate that our approach is able to hide the sensitive attributes, while limiting the distortion of the data and improving the fairness on subsequent data analysis tasks.

arxiv情報

著者 Sébastien Gambs,Rosin Claude Ngueveu
発行日 2023-02-16 15:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク