Generative AI for Hate Speech Detection: Evaluation and Findings

要約

ディープ ニューラル モデルを使用したヘイトスピーチの自動検出は、ラベル付きデータセットの不足によって妨げられ、一般化が不十分になります。
この問題を軽減するために、生成 AI を利用して、利用可能なラベル付きの例から大量の合成ヘイト スピーチ シーケンスを生成し、生成されたデータを大規模な事前トレーニング済み言語モデル (LLM) の微調整に活用しています。
この章では、関連する方法、実験設定、およびこのアプローチの評価のレビューを提供します。
BERT、RoBERTa、ALBERT などの一般的な LLM に加えて、RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect、および
トキシジェン。
実証研究は私たちの以前の発見を裏付けており、このアプローチがヘイトスピーチの一般化を改善し、データ分布全体での想起パフォーマンスを向上させることを示しています。
さらに、GPT-3.5 モデルを使用して、微調整された LLM のパフォーマンスとゼロショット ヘイト検出を調査し、比較します。
私たちの結果は、GPT-3.5 モデルを使用するとより優れた汎化が達成されるものの、ほとんどのデータセットで平凡な再現率と低い精度が達成されることを示しています。
GPT-3.5 以降のモデルの感度を、同様のテキスト生成技術を使用して改善できるかどうかは未解決の問題です。

要約(オリジナル)

Automatic hate speech detection using deep neural models is hampered by the scarcity of labeled datasets, leading to poor generalization. To mitigate this problem, generative AI has been utilized to generate large amounts of synthetic hate speech sequences from available labeled examples, leveraging the generated data in finetuning large pre-trained language models (LLMs). In this chapter, we provide a review of relevant methods, experimental setups and evaluation of this approach. In addition to general LLMs, such as BERT, RoBERTa and ALBERT, we apply and evaluate the impact of train set augmentation with generated data using LLMs that have been already adapted for hate detection, including RoBERTa-Toxicity, HateBERT, HateXplain, ToxDect, and ToxiGen. An empirical study corroborates our previous findings, showing that this approach improves hate speech generalization, boosting recall performance across data distributions. In addition, we explore and compare the performance of the finetuned LLMs with zero-shot hate detection using a GPT-3.5 model. Our results demonstrate that while better generalization is achieved using the GPT-3.5 model, it achieves mediocre recall and low precision on most datasets. It is an open question whether the sensitivity of models such as GPT-3.5, and onward, can be improved using similar techniques of text generation.

arxiv情報

著者 Sagi Pendzel,Tomer Wullach,Amir Adler,Einat Minkov
発行日 2023-11-16 16:09:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク