Explaining Knock-on Effects of Bias Mitigation

要約

機械学習システムにおいて、バイアスを緩和するアプローチは、特権を持つグループとそうでないグループの間で結果を公平にすることを目的としている。バイアスを緩和する方法は様々な方法で機能し、「ウォーターフォール」効果が知られている。本稿では、緩和介入が適用された場合に影響を受けるコホートの特徴を明らかにすることを目的とする。そのために、介入効果を分類タスクとして扱い、説明可能なメタ分類器を学習して、結果が変化したコホートを特定する。モデルのライフサイクルの様々な段階で機能する様々なバイアス緩和戦略を検証する。我々のメタ分類器が、影響を受けたコホートを発見できることを実証的に示す。さらに、テストしたすべての緩和戦略が、自明ではない割合のケース、すなわち、緩和努力のみを理由として不利な結果を受ける人々に悪影響を与えることを示す。これは、公平性の指標が改善されているにもかかわらずである。これらの結果を基に、静的な緩和介入について、総合的な指標を超えたより慎重な監査を行うことを主張する。

要約(オリジナル)

In machine learning systems, bias mitigation approaches aim to make outcomes fairer across privileged and unprivileged groups. Bias mitigation methods work in different ways and have known ‘waterfall’ effects, e.g., mitigating bias at one place may manifest bias elsewhere. In this paper, we aim to characterise impacted cohorts when mitigation interventions are applied. To do so, we treat intervention effects as a classification task and learn an explainable meta-classifier to identify cohorts that have altered outcomes. We examine a range of bias mitigation strategies that work at various stages of the model life cycle. We empirically demonstrate that our meta-classifier is able to uncover impacted cohorts. Further, we show that all tested mitigation strategies negatively impact a non-trivial fraction of cases, i.e., people who receive unfavourable outcomes solely on account of mitigation efforts. This is despite improvement in fairness metrics. We use these results as a basis to argue for more careful audits of static mitigation interventions that go beyond aggregate metrics.

arxiv情報

著者 Svetoslav Nizhnichenkov,Rahul Nair,Elizabeth Daly,Brian Mac Namee
発行日 2023-12-01 18:40:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CY, cs.LG パーマリンク