Model Explanation Disparities as a Fairness Diagnostic

要約

近年、機械学習モデルの公平性、特に保護されたサブグループに対するバイアスの定量化と除去に焦点を当てた研究が盛んに行われている。ある研究では、「リッチサブグループ」という概念を導入することで、保護されたサブグループの概念を単純な離散クラスを超えて一般化し、これらのリッチサブグループクラスに関してキャリブレーションされた、またはエラー率が等しいモデルを訓練することを目指す。これとほぼ直交するように、分類器hとテストポイントxが与えられたとき、予測h(x)に対する影響をxの個々の特徴に帰属させる局所モデル説明法が開発されてきた。ローカルモデル説明法は、異なる保護サブグループ間で平均して異なる特徴量重要度値を帰属させるのか、また、この格差を効率的に検出できるのか。もしモデルが、特定の保護されたサブグループにおいて与えられた特徴を高く評価するが、データセット全体では評価しない(またはその逆)場合、これは予測モデルまたは基礎となるデータ生成プロセスにおけるバイアスの潜在的指標であり、少なくともドメインエキスパートが深く掘り下げる必要性を知らせる有用な診断となり得る。本論文では、リッチサブグループの文脈で特徴重要度格差(FID)の概念を正式に導入し、大きなFIDサブグループを特定するためのオラクル有効アルゴリズムを設計し、FIDに対する監査をデータセットの偏りを調査する重要な方法として確立する徹底した実証分析を実施する。我々の実験では、4つのデータセットと4つの一般的な特徴量重要度手法において、我々のアルゴリズムが、(i)データセット全体における重要度としばしば桁違いのサブグループ特徴量重要度を持つ(ii)サンプル外でも一般化できる(iii)これらのデータセットに固有の潜在バイアスに関する興味深い議論をもたらす、(特徴、サブグループ)組を同時に発見した。

要約(オリジナル)

In recent years, there has been a flurry of research focusing on the fairness of machine learning models, and in particular on quantifying and eliminating bias against protected subgroups. One line of work generalizes the notion of protected subgroups beyond simple discrete classes by introducing the notion of a ‘rich subgroup’, and seeks to train models that are calibrated or equalize error rates with respect to these richer subgroup classes. Largely orthogonally, local model explanation methods have been developed that given a classifier h and test point x, attribute influence for the prediction h(x) to the individual features of x. This raises a natural question: Do local model explanation methods attribute different feature importance values on average across different protected subgroups, and can we detect these disparities efficiently? If the model places high weight on a given feature in a specific protected subgroup, but not on the dataset overall (or vice versa), this could be a potential indicator of bias in the predictive model or the underlying data generating process, and is at the very least a useful diagnostic that signals the need for a domain expert to delve deeper. In this paper, we formally introduce the notion of feature importance disparity (FID) in the context of rich subgroups, design oracle-efficent algorithms to identify large FID subgroups, and conduct a thorough empirical analysis that establishes auditing for FID as an important method to investigate dataset bias. Our experiments show that across 4 datasets and 4 common feature importance methods our algorithms find (feature, subgroup) pairs that simultaneously: (i) have subgroup feature importance that is often an order of magnitude different than the importance on the dataset as a whole (ii) generalize out of sample, and (iii) yield interesting discussions about potential bias inherent in these datasets.

arxiv情報

著者 Peter W. Chang,Leor Fishman,Seth Neel
発行日 2023-03-06 16:52:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CY, cs.LG パーマリンク