Improving Adversarial Data Collection by Supporting Annotators: Lessons from GAHD, a German Hate Speech Dataset

要約

ヘイトスピーチ検出モデルの性能は、トレーニングに使用されたデータによって決まります。
ソーシャル メディアをソースとするデータセットには体系的なギャップやバイアスがあり、決定境界が単純化された信頼性の低いモデルが生成されます。
モデルの弱点を利用して収集された敵対的なデータセットは、この問題の解決を約束します。
ただし、敵対的なデータの収集には時間がかかり、コストがかかる可能性があり、個々のアノテーターの創造性には限界があります。
このペーパーでは、約 11,000 件の例で構成される新しいドイツの敵対的ヘイトスピーチ データセットである GAHD を紹介します。
データ収集中に、アノテーターをサポートするための新しい戦略を模索し、より多様な敵対的な例をより効率的に作成し、戦略ごとにアノテーターの意見の相違を手動で分析します。
私たちの実験では、結果として得られるデータセットは最先端のヘイトスピーチ検出モデルにとってさえ困難であり、GAHD でのトレーニングによりモデルの堅牢性が明らかに向上することが示されました。
さらに、複数のサポート戦略を混合することが最も有利であることがわかりました。
GAHD は https://github.com/jagol/gahd で公開されています。

要約(オリジナル)

Hate speech detection models are only as good as the data they are trained on. Datasets sourced from social media suffer from systematic gaps and biases, leading to unreliable models with simplistic decision boundaries. Adversarial datasets, collected by exploiting model weaknesses, promise to fix this problem. However, adversarial data collection can be slow and costly, and individual annotators have limited creativity. In this paper, we introduce GAHD, a new German Adversarial Hate speech Dataset comprising ca.\ 11k examples. During data collection, we explore new strategies for supporting annotators, to create more diverse adversarial examples more efficiently and provide a manual analysis of annotator disagreements for each strategy. Our experiments show that the resulting dataset is challenging even for state-of-the-art hate speech detection models, and that training on GAHD clearly improves model robustness. Further, we find that mixing multiple support strategies is most advantageous. We make GAHD publicly available at https://github.com/jagol/gahd.

arxiv情報

著者 Janis Goldzycher,Paul Röttger,Gerold Schneider
発行日 2024-03-28 16:44:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク