Exploring Boundaries and Intensities in Offensive and Hate Speech: Unveiling the Complex Spectrum of Social Media Discourse

要約

デジタル メディアの普及と社会政治力学の進化により、憎悪に満ちたコンテンツの拡散が大幅に拡大しました。
既存の研究は主にテキストを二値カテゴリに分類することに焦点を当てており、テキストに内在する不快感や嫌悪感の継続的なスペクトルが見落とされていることがよくあります。
この研究では、カテゴリ分類、ヘイト対象の特定、攻撃性とヘイトの強度の評価という 3 つの異なるタスクについて注釈が付けられた 8,258 件のツイートで構成される、アムハラ語の広範なベンチマーク データセットを紹介します。
私たちの調査では、ツイートのかなりの部分が攻撃性や嫌悪感の程度が低いレベルに属していることが明らかになり、利害関係者による早期介入の必要性が強調されています。
民族的および政治的憎悪の標的の蔓延は、私たちのデータセット内で重要な重複を伴い、エチオピアの社会政治的状況内の複雑な関係を強調しています。
私たちは分類モデルと回帰モデルを構築し、これらのタスクを処理する際のモデルの有効性を調査します。
私たちの結果は、ヘイトスピーチや攻撃的なスピーチは単純な二項分類では対処できず、連続した値の範囲にわたる変数として現れることを明らかにしました。
Afro-XLMR-large モデルは最高のパフォーマンスを示し、カテゴリ、ターゲット、回帰タスクでそれぞれ 75.30%、70.59%、29.42% の F1 スコアを達成しました。
Afro-XLMR-large モデルの 80.22% の相関係数は、強い一致を示しています。

要約(オリジナル)

The prevalence of digital media and evolving sociopolitical dynamics have significantly amplified the dissemination of hateful content. Existing studies mainly focus on classifying texts into binary categories, often overlooking the continuous spectrum of offensiveness and hatefulness inherent in the text. In this research, we present an extensive benchmark dataset for Amharic, comprising 8,258 tweets annotated for three distinct tasks: category classification, identification of hate targets, and rating offensiveness and hatefulness intensities. Our study highlights that a considerable majority of tweets belong to the less offensive and less hate intensity levels, underscoring the need for early interventions by stakeholders. The prevalence of ethnic and political hatred targets, with significant overlaps in our dataset, emphasizes the complex relationships within Ethiopia’s sociopolitical landscape. We build classification and regression models and investigate the efficacy of models in handling these tasks. Our results reveal that hate and offensive speech can not be addressed by a simplistic binary classification, instead manifesting as variables across a continuous range of values. The Afro-XLMR-large model exhibits the best performances achieving F1-scores of 75.30%, 70.59%, and 29.42% for the category, target, and regression tasks, respectively. The 80.22% correlation coefficient of the Afro-XLMR-large model indicates strong alignments.

arxiv情報

著者 Abinew Ali Ayele,Esubalew Alemneh Jalew,Adem Chanie Ali,Seid Muhie Yimam,Chris Biemann
発行日 2024-04-18 09:52:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク