HateDebias: On the Diversity and Variability of Hate Speech Debiasing

要約

ソーシャルメディア上のヘイトスピーチはいたるところに存在しますが、早急に規制する必要があります。
ヘイトスピーチやさまざまな種類の倫理問題によってもたらされる偏見を検出し、軽減することができなければ。
ヘイトスピーチ検出の問題に対処するために多くのデータセットが提案されていますが、これらのデータセットではバイアスの多様性と変動性がほとんど考慮されていないため、現実世界のシナリオとはかけ離れています。
このギャップを埋めるために、継続的に変化する環境下でのヘイトスピーチ検出のモデル能力を分析するための、HateDebias というベンチマークを提案します。
具体的には、バイアスの多様性に対応するために、さまざまな種類のバイアスを含む既存のヘイトスピーチ検出データセットを収集します。
変動性 (つまり、データセット内のバイアス属性の変化) にさらに対応するために、継続学習設定に従うようにデータセットを再編成します。
単一タイプのバイアスを使用してデータセットでトレーニングされたモデルの検出精度を、大幅なパフォーマンスの低下が観察される HateDebias のパフォーマンスで評価します。
バイアス除去の潜在的な方向性を提供するために、モデルのバイアス除去能力を確保するためのメモリ再生戦略だけでなく、継続学習とバイアス情報の正則化に基づいたバイアス除去フレームワークをさらに提案します。
提案されたベンチマークの実験結果は、前述の方法が顕著なマージンでいくつかのベースラインを改善できることを示し、現実のアプリケーションにおけるその有効性を強調しています。

要約(オリジナル)

Hate speech on social media is ubiquitous but urgently controlled. Without detecting and mitigating the biases brought by hate speech, different types of ethical problems. While a number of datasets have been proposed to address the problem of hate speech detection, these datasets seldom consider the diversity and variability of bias, making it far from real-world scenarios. To fill this gap, we propose a benchmark, named HateDebias, to analyze the model ability of hate speech detection under continuous, changing environments. Specifically, to meet the diversity of biases, we collect existing hate speech detection datasets with different types of biases. To further meet the variability (i.e., the changing of bias attributes in datasets), we reorganize datasets to follow the continuous learning setting. We evaluate the detection accuracy of models trained on the datasets with a single type of bias with the performance on the HateDebias, where a significant performance drop is observed. To provide a potential direction for debiasing, we further propose a debiasing framework based on continuous learning and bias information regularization, as well as the memory replay strategies to ensure the debiasing ability of the model. Experiment results on the proposed benchmark show that the aforementioned method can improve several baselines with a distinguished margin, highlighting its effectiveness in real-world applications.

arxiv情報

著者 Nankai Lin,Hongyan Wu,Zhengming Chen,Zijian Li,Lianxi Wang,Shengyi Jiang,Dong Zhou,Aimin Yang
発行日 2024-06-07 12:18:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク