Systematic Offensive Stereotyping (SOS) Bias in Language Models

要約

この論文では、言語モデル (LM) における SOS バイアスを測定するための新しい指標を提案します。
次に、SOS バイアスを検証し、それを除去する有効性を調査します。
最後に、LM の SOS バイアスがヘイトスピーチ検出のパフォーマンスと公平性に及ぼす影響を調査します。
私たちの結果は、検査されたすべての LM が SOS に偏っていることを示唆しています。
そして、SOSバイアスは、疎外されたアイデンティティがオンラインで経験する憎悪を反映しているという。
結果は、文献からのデバイアス手法を使用すると、一部の敏感な属性についてはLMのSOSバイアスが悪化し、他の属性については改善されることを示しています。
最後に、私たちの結果は、検査された LM の SOS バイアスがヘイトスピーチ検出の公平性に影響を与えていることを示唆しています。
ただし、SOS バイアスがヘイトスピーチ検出のパフォーマンスに影響を与えるという強力な証拠はありません。

要約(オリジナル)

In this paper, we propose a new metric to measure the SOS bias in language models (LMs). Then, we validate the SOS bias and investigate the effectiveness of removing it. Finally, we investigate the impact of the SOS bias in LMs on their performance and fairness on hate speech detection. Our results suggest that all the inspected LMs are SOS biased. And that the SOS bias is reflective of the online hate experienced by marginalized identities. The results indicate that using debias methods from the literature worsens the SOS bias in LMs for some sensitive attributes and improves it for others. Finally, Our results suggest that the SOS bias in the inspected LMs has an impact on their fairness of hate speech detection. However, there is no strong evidence that the SOS bias has an impact on the performance of hate speech detection.

arxiv情報

著者 Fatma Elsafoury
発行日 2024-04-26 08:45:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク