Weigh Your Own Words: Improving Hate Speech Counter Narrative Generation via Attention Regularization

要約

オンラインのヘイトスピーチと闘うための最近の計算アプローチには、人間が厳選したデータを使用して事前トレーニング済みのトランスフォーマーベースの言語モデル (PLM) を適応させることによる、反論の物語の自動生成が含まれます。
ただし、このプロセスはドメイン内で過剰適合を引き起こす可能性があり、その結果、モデルはトレーニング データと同様の憎しみについてのみ許容可能なナラティブを生成し、他のターゲットや現実世界の有害な言語への移植性はほとんどありません。
この論文では、カウンターナラティブ生成のための PLM の一般化機能を向上させるための新しい注意正則化手法を紹介します。
これにより、トレーニング固有の用語への過剰適合が抑制され、より多様で豊かなナラティブが得られます。
英語のベンチマーク データセットで 2 つの注意ベースの正則化手法を実験します。
正規化されたモデルは、自動メトリクスと人間による評価の両方の点で、ほとんどの場合、特に憎しみの対象がトレーニング データに存在しない場合、最先端のアプローチよりも優れた反論を生み出します。
この研究により、より優れた、より柔軟な反論生成モデルへの道が開かれますが、これはデータセットを作成するのが非常に困難なタスクです。

要約(オリジナル)

Recent computational approaches for combating online hate speech involve the automatic generation of counter narratives by adapting Pretrained Transformer-based Language Models (PLMs) with human-curated data. This process, however, can produce in-domain overfitting, resulting in models generating acceptable narratives only for hatred similar to training data, with little portability to other targets or to real-world toxic language. This paper introduces novel attention regularization methodologies to improve the generalization capabilities of PLMs for counter narratives generation. Overfitting to training-specific terms is then discouraged, resulting in more diverse and richer narratives. We experiment with two attention-based regularization techniques on a benchmark English dataset. Regularized models produce better counter narratives than state-of-the-art approaches in most cases, both in terms of automatic metrics and human evaluation, especially when hateful targets are not present in the training data. This work paves the way for better and more flexible counter-speech generation models, a task for which datasets are highly challenging to produce.

arxiv情報

著者 Helena Bonaldi,Giuseppe Attanasio,Debora Nozza,Marco Guerini
発行日 2023-09-05 15:27:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク