要約
デジタル社会で最も警戒する問題の1つは、ソーシャルメディアでのヘイトスピーチ(HS)です。
重症度は非常に高いため、世界中の研究者がこのドメインに魅了されています。
識別とアラームシステムに対処するために、顕著な量の作業が実施されています。
ただし、特に低リソース言語の場合、顕著なギャップが存在します。
包括的なデータセットは、バングラなどの制約されたリソース言語の主な問題です。
興味深いことに、ヘイトスピーチや特定のスピーチには単一の次元はありません。
同様に、憎悪コンポーネントには複数の虐待的な属性を同時に持つことができます。これは既存のデータセットで見逃されているようです。
したがって、Boishommoという名前のマルチラベルバングラヘイトスピーチデータセットがこの作業で編集され、評価されています。
それには、人種、性別、宗教、政治などのHSのカテゴリが含まれます。
Boishommoは、2000以上の注釈付きの例で、バングラでのヘイトスピーチについての微妙な理解を提供し、非ラチンスクリプトの処理の複雑さを強調しています。
複数のアルゴリズムアプローチでの評価とは別に、バングラテキストの処理の複雑さも強調し、モデルのパフォーマンスを評価します。
このユニークなマルチラベルアプローチは、より微妙で多様なデータセットを提供することにより、低リソース言語の将来のヘイトスピーチ検出と分析研究を豊かにします。
要約(オリジナル)
One of the most alarming issues in digital society is hate speech (HS) on social media. The severity is so high that researchers across the globe are captivated by this domain. A notable amount of work has been conducted to address the identification and alarm system. However, a noticeable gap exists, especially for low-resource languages. Comprehensive datasets are the main problem among the constrained resource languages, such as Bangla. Interestingly, hate speech or any particular speech has no single dimensionality. Similarly, the hate component can simultaneously have multiple abusive attributes, which seems to be missed in the existing datasets. Thus, a multi-label Bangla hate speech dataset named BOISHOMMO has been compiled and evaluated in this work. That includes categories of HS across race, gender, religion, politics, and more. With over two thousand annotated examples, BOISHOMMO provides a nuanced understanding of hate speech in Bangla and highlights the complexities of processing non-Latin scripts. Apart from evaluating with multiple algorithmic approaches, it also highlights the complexities of processing Bangla text and assesses model performance. This unique multi-label approach enriches future hate speech detection and analysis studies for low-resource languages by providing a more nuanced, diverse dataset.
arxiv情報
著者 | Md Abdullah Al Kafi,Sumit Kumar Banshal,Md Sadman Shakib,Showrov Azam,Tamanna Alam Tabashom |
発行日 | 2025-04-11 10:14:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google