Gender Bias in Explainability: Investigating Performance Disparity in Post-hoc Methods

要約

説明手法の応用と評価に関する研究は拡大し続けているが、サブグループ間の性能の格差に関する説明手法の公平性は、しばしば見落とされがちな側面である。本稿では、3つのタスクと5つの言語モデルにおいて、広く用いられているポストホック特徴帰属法が、その忠実性、頑健性、複雑性に関して著しい男女格差を示すことを示すことで、このギャップに対処する。これらの格差は、モデルが特に偏りのないデータセットで事前に訓練されたり、微調整されたりした場合でも持続し、我々が観察した格差は単に偏った訓練データの結果ではないことを示している。この結果は、説明可能性手法を開発・適用する際に、説明の格差に対処することの重要性を強調するものである。さらに、我々の知見は、モデル全体の公正さや説明可能性とともに、説明の公正さを規制の枠組みに組み込むことの重要性を強調している。

要約(オリジナル)

While research on applications and evaluations of explanation methods continues to expand, fairness of the explanation methods concerning disparities in their performance across subgroups remains an often overlooked aspect. In this paper, we address this gap by showing that, across three tasks and five language models, widely used post-hoc feature attribution methods exhibit significant gender disparity with respect to their faithfulness, robustness, and complexity. These disparities persist even when the models are pre-trained or fine-tuned on particularly unbiased datasets, indicating that the disparities we observe are not merely consequences of biased training data. Our results highlight the importance of addressing disparities in explanations when developing and applying explainability methods, as these can lead to biased outcomes against certain subgroups, with particularly critical implications in high-stakes contexts. Furthermore, our findings underscore the importance of incorporating the fairness of explanations, alongside overall model fairness and explainability, as a requirement in regulatory frameworks.

arxiv情報

著者 Mahdi Dhaini,Ege Erdogan,Nils Feldhus,Gjergji Kasneci
発行日 2025-05-02 11:41:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク