Revisiting Hate Speech Benchmarks: From Data Curation to System Deployment

要約

ソーシャル メディアには憎しみに満ちたコンテンツが溢れていますが、その多くは言語や話題の多様性で覆われていることがよくあります。
ヘイトスピーチの検出に使用されるベンチマーク データセットは、主にヘイト語彙を使用してコンパイルされているため、そのような逸脱は考慮されていません。
ただし、中立的にシードされた悪意のあるコンテンツでは、ヘイト信号を捕捉することが困難になります。
したがって、現実世界の憎しみの変動を模倣するモデルとデータセットを設計するには、さらなる調査が必要です。
この目的を達成するために、Twitter からのヘイトスピーチ検出のための約 51,000 件の投稿からなる大規模なコード混合クラウドソーシング データセットである GOTHate を紹介します。
GOTHate は中立的にシードされており、さまざまな言語やトピックを網羅しています。
私たちは GOTHate と既存のヘイトスピーチ データセットを詳細に比較し、その新規性を強調します。
最近の 10 個のベースラインでベンチマークを行います。
私たちの広範な実証実験とベンチマーク実験により、テキストのみの設定では GOTHate を分類するのが難しいことがわかりました。
したがって、内生信号を追加することでヘイトスピーチ検出タスクがどのように強化されるかを調査します。
ユーザーのタイムライン情報とエゴ ネットワークで GOTHate を強化し、ヘイト コンテンツを理解するためのデータ ソース全体を現実世界の設定に近づけます。
私たちが提案するソリューション HEN-mBERT は、歴史、トポロジー、および見本からの潜在的な内因性シグナルで言語部分空間を豊かにする、モジュール式の多言語の専門家混合モデルです。
HEN-mBERT は、全体的なマクロ F1 とヘイト クラス F1 で、それぞれ最良のベースラインを 2.5% と 5% 上回っています。
私たちの実験に触発され、Wipro AI と提携して、オンラインでの危害に対処するという使命の一環として、憎悪に満ちたコンテンツを検出するための半自動パイプラインを開発しています。

要約(オリジナル)

Social media is awash with hateful content, much of which is often veiled with linguistic and topical diversity. The benchmark datasets used for hate speech detection do not account for such divagation as they are predominantly compiled using hate lexicons. However, capturing hate signals becomes challenging in neutrally-seeded malicious content. Thus, designing models and datasets that mimic the real-world variability of hate warrants further investigation. To this end, we present GOTHate, a large-scale code-mixed crowdsourced dataset of around 51k posts for hate speech detection from Twitter. GOTHate is neutrally seeded, encompassing different languages and topics. We conduct detailed comparisons of GOTHate with the existing hate speech datasets, highlighting its novelty. We benchmark it with 10 recent baselines. Our extensive empirical and benchmarking experiments suggest that GOTHate is hard to classify in a text-only setup. Thus, we investigate how adding endogenous signals enhances the hate speech detection task. We augment GOTHate with the user’s timeline information and ego network, bringing the overall data source closer to the real-world setup for understanding hateful content. Our proposed solution HEN-mBERT is a modular, multilingual, mixture-of-experts model that enriches the linguistic subspace with latent endogenous signals from history, topology, and exemplars. HEN-mBERT transcends the best baseline by 2.5% and 5% in overall macro-F1 and hate class F1, respectively. Inspired by our experiments, in partnership with Wipro AI, we are developing a semi-automated pipeline to detect hateful content as a part of their mission to tackle online harm.

arxiv情報

著者 Atharva Kulkarni,Sarah Masud,Vikram Goyal,Tanmoy Chakraborty
発行日 2023-06-15 12:37:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク