Marrying Fairness and Explainability in Supervised Learning

要約

タイトル:監視学習における公正性と説明可能性の結婚
要約:
– 人間の意思決定を支援する機械学習アルゴリズムは、一部の保護されたグループに対して偏見がある可能性がある。
– 被保護属性の直接的因果効果を直接的な差別とし、保護属性に関連する非保護属性の因果関係の変化を誘発する誘発的差別として、差別を形式化する。
– 限定的直接効果の測定とSHAPによる説明は、シンセティックと現実のデータセットにおいて、最先端の公正な学習方法が、関連性または逆差別を通じて誘発的差別を引き起こすことを示している。
– アルゴリズムシステムにおける差別を抑制するために、保護属性の影響をシステムの出力から除去し、残りの特徴の影響を維持することを提案する。
– この目的を達成するための後処理方法を導入し、それらが比較的高いモデル精度をもたらし、直接的差別を防止し、人口統計学的な不均衡などの異なる不公平の尺度を減少させることを発見した。

要約(オリジナル)

Machine learning algorithms that aid human decision-making may inadvertently discriminate against certain protected groups. We formalize direct discrimination as a direct causal effect of the protected attributes on the decisions, while induced discrimination as a change in the causal influence of non-protected features associated with the protected attributes. The measurements of marginal direct effect (MDE) and SHapley Additive exPlanations (SHAP) reveal that state-of-the-art fair learning methods can induce discrimination via association or reverse discrimination in synthetic and real-world datasets. To inhibit discrimination in algorithmic systems, we propose to nullify the influence of the protected attribute on the output of the system, while preserving the influence of remaining features. We introduce and study post-processing methods achieving such objectives, finding that they yield relatively high model accuracy, prevent direct discrimination, and diminishes various disparity measures, e.g., demographic disparity.

arxiv情報

著者 Przemyslaw Grabowicz,Nicholas Perello,Aarshee Mishra
発行日 2023-04-21 02:49:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CY, cs.LG パーマリンク