A Target-Aware Analysis of Data Augmentation for Hate Speech Detection

要約

ヘイトスピーチは、制限する努力にもかかわらず、ソーシャルネットワークの普及によってもたらされる主な脅威の1つです。
この問題には注目が集まっていますが、障害者差別や年齢差別など、ほとんど代表されていない現象を中心としたデータセットや事例研究が不足しているため、ヘイトスピーチ検出システムが過小評価されているアイデンティティグループに対してうまく機能しない可能性があります。
高品質のデータを生成する LLM の前例のない機能を考慮して、生成言語モデルを使用して既存のデータを強化し、ターゲットの不均衡を軽減する可能性を調査します。
私たちは、ターゲットの身元情報で注釈が付けられた英語のデータセットである Measuring Hate Speech コーパスからの 1,000 件の投稿を拡張する実験を行い、単純なデータ拡張方法とさまざまな種類の生成モデルの両方を使用して約 30,000 の合成例を追加し、自己回帰アプローチとシーケンス間アプローチを比較しました。
多くの場合、従来の DA 手法が生成モデルよりも好ましいと考えられますが、2 つの手法を組み合わせると最良の結果が得られる傾向があります。
実際、出身、宗教、障害などの一部のヘイト カテゴリでは、トレーニングに拡張データを使用したヘイト スピーチ分類は、拡張なしのベースラインと比較して F1 が 10% 以上改善されています。
この取り組みは、パフォーマンスが向上するだけでなく、これまで無視されてきたターゲットに対してより公平で包括的なヘイトスピーチ検出システムの開発に貢献します。

要約(オリジナル)

Hate speech is one of the main threats posed by the widespread use of social networks, despite efforts to limit it. Although attention has been devoted to this issue, the lack of datasets and case studies centered around scarcely represented phenomena, such as ableism or ageism, can lead to hate speech detection systems that do not perform well on underrepresented identity groups. Given the unpreceded capabilities of LLMs in producing high-quality data, we investigate the possibility of augmenting existing data with generative language models, reducing target imbalance. We experiment with augmenting 1,000 posts from the Measuring Hate Speech corpus, an English dataset annotated with target identity information, adding around 30,000 synthetic examples using both simple data augmentation methods and different types of generative models, comparing autoregressive and sequence-to-sequence approaches. We find traditional DA methods to often be preferable to generative models, but the combination of the two tends to lead to the best results. Indeed, for some hate categories such as origin, religion, and disability, hate speech classification using augmented data for training improves by more than 10% F1 over the no augmentation baseline. This work contributes to the development of systems for hate speech detection that are not only better performing but also fairer and more inclusive towards targets that have been neglected so far.

arxiv情報

著者 Camilla Casula,Sara Tonelli
発行日 2024-10-10 15:46:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク