Uncovering Political Hate Speech During Indian Election Campaign: A New Low-Resource Dataset and Baselines

要約

政治的議論におけるヘイトスピーチの検出は重要な問題ですが、リソースの少ない言語ではさらに困難になります。
この問題に対処するために、IEHate という名前の新しいデータセットを導入しました。これには、2021 年 11 月 1 日から 2022 年 3 月 9 日までのインド議会選挙キャンペーンに関連する、手動で注釈が付けられた 11,457 件のヒンディー語ツイートが含まれています。
政治的コミュニケーションにおけるヘイトスピーチの蔓延と、使用されるさまざまな形のヘイトスピーチ。
さらに、さまざまな機械学習、深層学習、トランスフォーマーベースのアルゴリズムを使用してデータセットのベンチマークを実施します。
私たちの実験では、これらのモデルのパフォーマンスをさらに向上できることが明らかになり、リソースの少ない言語でヘイトスピーチを検出するためのより高度な技術の必要性が強調されています。
特に、アルゴリズムよりも人間による評価のスコアが比較的高いことは、ヘイトスピーチを効果的に抑制するために人間によるアプローチと自動化されたアプローチの両方を利用することの重要性を強調しています。
当社の IEHate データセットは、低リソース言語でのヘイトスピーチ検出技術の開発と評価に取り組む研究者や実践者にとって貴重なリソースとして役立ちます。
全体として、私たちの取り組みは、特にリソースの少ない言語の文脈において、政治的言説におけるヘイトスピーチを特定し軽減するという課題に取り組むことの重要性を強調しています。
この作業のデータセットとリソースは、https://github.com/Farhan-jafri/Indian-Election で入手できます。

要約(オリジナル)

The detection of hate speech in political discourse is a critical issue, and this becomes even more challenging in low-resource languages. To address this issue, we introduce a new dataset named IEHate, which contains 11,457 manually annotated Hindi tweets related to the Indian Assembly Election Campaign from November 1, 2021, to March 9, 2022. We performed a detailed analysis of the dataset, focusing on the prevalence of hate speech in political communication and the different forms of hateful language used. Additionally, we benchmark the dataset using a range of machine learning, deep learning, and transformer-based algorithms. Our experiments reveal that the performance of these models can be further improved, highlighting the need for more advanced techniques for hate speech detection in low-resource languages. In particular, the relatively higher score of human evaluation over algorithms emphasizes the importance of utilizing both human and automated approaches for effective hate speech moderation. Our IEHate dataset can serve as a valuable resource for researchers and practitioners working on developing and evaluating hate speech detection techniques in low-resource languages. Overall, our work underscores the importance of addressing the challenges of identifying and mitigating hate speech in political discourse, particularly in the context of low-resource languages. The dataset and resources for this work are made available at https://github.com/Farhan-jafri/Indian-Election.

arxiv情報

著者 Farhan Ahmad Jafri,Mohammad Aman Siddiqui,Surendrabikram Thapa,Kritesh Rauniyar,Usman Naseem,Imran Razzak
発行日 2023-06-26 15:17:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク