Systematic Offensive Stereotyping (SOS) Bias in Language Models

要約

研究によると、言語モデル (LM) は社会的に偏っていることがわかっています。
しかし、LM における毒性と攻撃的な固定観念の偏見については十分に研究されていません。
この論文では、LM における組織的な攻撃的ステレオタイプ (SOS) のバイアスを調査します。
それを測定する方法を提案します。
次に、SOS バイアスを検証し、それを除去するための文献からのデバイアス手法の有効性を調査します。
最後に、LM の SOS バイアスが、ヘイトスピーチ検出タスクにおけるパフォーマンスと公平性に及ぼす影響を調査します。
私たちの結果は、検査されたすべての LM が SOS に偏っていることを示唆しています。
この結果は、LMのSOSバイアスが、調査対象となった疎外されたグループがオンラインで経験した憎しみを反映していることを示唆している。
この結果は、文献にある一般的なデバイアス法を使用して LM の SOS バイアスを除去すると、SOS バイアス スコアが悪化することを示しています。
最後に、私たちの結果は、LM の SOS バイアスがヘイトスピーチ検出のパフォーマンスに影響を与えるという強力な証拠を示していません。
一方で、LM の SOS バイアスが公平性に影響を与えているという証拠もあります。

要約(オリジナル)

Research has shown that language models (LMs) are socially biased. However, toxicity and offensive stereotyping bias in LMs are understudied. In this paper, we investigate the systematic offensive stereotype (SOS) bias in LMs. We propose a method to measure it. Then, we validate the SOS bias and investigate the effectiveness of debias methods from the literature on removing it. Finally, we investigate the impact of the SOS bias in LMs on their performance and their fairness on the task of hate speech detection. Our results suggest that all the inspected LMs are SOS biased. The results suggest that the SOS bias in LMs is reflective of the hate experienced online by the inspected marginalized groups. The results indicate that removing the SOS bias in LMs, using a popular debias method from the literature, leads to worse SOS bias scores. Finally, Our results show no strong evidence that the SOS bias in LMs is impactful on their performance on hate speech detection. On the other hand, there is evidence that the SOS bias in LMs is impactful on their fairness.

arxiv情報

著者 Fatma Elsafoury
発行日 2023-08-21 12:37:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク