MetaHate: A Dataset for Unifying Efforts on Hate Speech Detection

要約

ヘイトスピーチは、蔓延する有害なオンライン言説の一種であり、多くの場合、憎悪に満ちたツイートから中傷的な投稿に至るまで、さまざまな中傷を通じて表れます。
このような言論が蔓延するにつれ、人々を世界中に結びつけ、標的となった個人やコミュニティに重大な社会的、心理的、そして場合によっては物理的な脅威をもたらします。
この現象に取り組むための現在の計算言語学的アプローチは、トレーニング用のラベル付きソーシャル メディア データセットに依存しています。
取り組みを統一するために、私たちの研究は包括的なメタコレクションの重要な必要性について前進し、この問題に効果的に対抗するのに役立つ広範なデータセットを提唱しています。
私たちは 60 を超えるデータセットを精査し、関連するデータセットを選択的に MetaHate に統合しました。
このペーパーでは、既存のコレクションを詳細に調査し、その長所と限界を明らかにします。
私たちの発見は、既存のデータセットのより深い理解に貢献し、より堅牢で適応性のあるモデルをトレーニングするための道を開きます。
これらの強化されたモデルは、デジタル領域におけるヘイトスピーチの動的かつ複雑な性質に効果的に対抗するために不可欠です。

要約(オリジナル)

Hate speech represents a pervasive and detrimental form of online discourse, often manifested through an array of slurs, from hateful tweets to defamatory posts. As such speech proliferates, it connects people globally and poses significant social, psychological, and occasionally physical threats to targeted individuals and communities. Current computational linguistic approaches for tackling this phenomenon rely on labelled social media datasets for training. For unifying efforts, our study advances in the critical need for a comprehensive meta-collection, advocating for an extensive dataset to help counteract this problem effectively. We scrutinized over 60 datasets, selectively integrating those pertinent into MetaHate. This paper offers a detailed examination of existing collections, highlighting their strengths and limitations. Our findings contribute to a deeper understanding of the existing datasets, paving the way for training more robust and adaptable models. These enhanced models are essential for effectively combating the dynamic and complex nature of hate speech in the digital realm.

arxiv情報

著者 Paloma Piot,Patricia Martín-Rodilla,Javier Parapar
発行日 2024-01-12 11:54:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SI パーマリンク