Noisy Self-Training with Data Augmentations for Offensive and Hate Speech Detection Tasks

要約

オンライン ソーシャル メディアには攻撃的で憎しみに満ちたコメントが溢れており、毎秒作成される膨大な量の投稿を考慮すると、それらを自動的に検出する必要性が高まっています。
このタスクのために人間がラベルを付けた高品質のデータセットを作成することは、特に攻撃的ではない投稿の方が攻撃的な投稿よりもはるかに頻繁であるため、難しく、コストがかかります。
ただし、ラベルのないデータは豊富にあり、簡単かつ安価に入手できます。
このシナリオでは、弱いラベルが付けられたサンプルを使用してトレーニング データの量を増やす自己トレーニング方法を使用できます。
最近の「ノイズの多い」自己トレーニング アプローチには、予測の一貫性を確保し、ノイズの多いデータや敵対的攻撃に対する堅牢性を高めるデータ拡張技術が組み込まれています。
このペーパーでは、サイズが異なる 5 つの異なる事前トレーニング済み BERT アーキテクチャにわたって 3 つの異なるテキスト データ拡張手法を使用して、デフォルトのノイズの多い自己トレーニングを実験します。
2 つの攻撃的/ヘイトスピーチのデータセットでの実験を評価し、(i) 自己トレーニングによりモデルのサイズに関係なく一貫してパフォーマンスが向上し、両方のデータセットで最大 +1.5% の F1 マクロが得られること、および (ii) ノイズの多い自己トレーニングが行われることを実証します。
テキスト データ拡張を使用したトレーニングは、同様の設定でうまく適用できたにもかかわらず、デフォルトの方法と比較すると、逆翻訳などの最先端の拡張を使用した場合でも、攻撃的およびヘイトスピーチの領域でのパフォーマンスが低下します。

要約(オリジナル)

Online social media is rife with offensive and hateful comments, prompting the need for their automatic detection given the sheer amount of posts created every second. Creating high-quality human-labelled datasets for this task is difficult and costly, especially because non-offensive posts are significantly more frequent than offensive ones. However, unlabelled data is abundant, easier, and cheaper to obtain. In this scenario, self-training methods, using weakly-labelled examples to increase the amount of training data, can be employed. Recent ‘noisy’ self-training approaches incorporate data augmentation techniques to ensure prediction consistency and increase robustness against noisy data and adversarial attacks. In this paper, we experiment with default and noisy self-training using three different textual data augmentation techniques across five different pre-trained BERT architectures varying in size. We evaluate our experiments on two offensive/hate-speech datasets and demonstrate that (i) self-training consistently improves performance regardless of model size, resulting in up to +1.5% F1-macro on both datasets, and (ii) noisy self-training with textual data augmentations, despite being successfully applied in similar settings, decreases performance on offensive and hate-speech domains when compared to the default method, even with state-of-the-art augmentations such as backtranslation.

arxiv情報

著者 João A. Leite,Carolina Scarton,Diego F. Silva
発行日 2023-07-31 12:35:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SI パーマリンク