On the Interplay between Fairness and Explainability

要約

信頼性の高い NLP アプリケーションを構築するには、モデルがさまざまな人口統計にわたって公平であり、説明可能である必要があります。
通常、公平性と説明可能性という 2 つの目的は、互いに独立して最適化および/または検査されます。
代わりに、今後の信頼できる NLP システムでは両方を考慮する必要があると主張します。
この研究では、それらが互いにどのように影響するかを理解するために最初の研究を実行します。つまり、公平な(より適切な)モデルは、より妥当な理論的根拠に依存しているのでしょうか?
およびその逆。
この目的を達成するために、私たちは 2 つの英語のマルチクラス テキスト分類データセット、BIOS と ECtHR で実験を実施します。これらのデータセットは、それぞれ性別と国籍に関する情報と、人間による注釈付きの理論的根拠を提供します。
私たちは、(i) 公平性を向上させることを目的としたバイアスの軽減のため、いくつかの方法を使用して事前トレーニングされた言語モデルを微調整します。
(ii) もっともらしい説明を生み出すことを目的とした根拠の抽出。
バイアス緩和アルゴリズムが常により公平なモデルにつながるわけではないことがわかりました。
さらに、経験的な公平性と説明可能性が直交していることも発見しました。

要約(オリジナル)

In order to build reliable and trustworthy NLP applications, models need to be both fair across different demographics and explainable. Usually these two objectives, fairness and explainability, are optimized and/or examined independently of each other. Instead, we argue that forthcoming, trustworthy NLP systems should consider both. In this work, we perform a first study to understand how they influence each other: do fair(er) models rely on more plausible rationales? and vice versa. To this end, we conduct experiments on two English multi-class text classification datasets, BIOS and ECtHR, that provide information on gender and nationality, respectively, as well as human-annotated rationales. We fine-tune pre-trained language models with several methods for (i) bias mitigation, which aims to improve fairness; (ii) rationale extraction, which aims to produce plausible explanations. We find that bias mitigation algorithms do not always lead to fairer models. Moreover, we discover that empirical fairness and explainability are orthogonal.

arxiv情報

著者 Stephanie Brandl,Emanuele Bugliarello,Ilias Chalkidis
発行日 2023-11-13 15:20:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク