Harnessing Pre-Trained Sentence Transformers for Offensive Language Detection in Indian Languages

要約

相互接続が進むデジタル世界において、ソーシャルメディア・プラットフォームは、ヘイトスピーチや攻撃的なコンテンツを拡散する強力なチャネルとして台頭してきた。本研究では、ヘイトスピーチ検出の領域を掘り下げ、特にリソースの少ないインドの3つの言語に重点を置く:ベンガル語、アッサム語、グジャラート語である。この課題は、ツイートが攻撃的な内容を含むか、攻撃的でない内容を含むかを識別することを目的とした、テキスト分類タスクとして構成されている。HASOC 2023データセットを活用して、事前に訓練したBERTモデルとSBERTモデルを微調整し、ヘイトスピーチを識別する際の有効性を評価しました。その結果、単言語文-BERTモデルの優位性が浮き彫りになり、特にベンガル語では最高順位を達成した。しかし、アッサム語とグジャラート語における性能は、強化のための継続的な機会を意味している。我々の目標は、ヘイトスピーチの拡散に対抗することで、包括的なオンライン空間を育成することである。

要約(オリジナル)

In our increasingly interconnected digital world, social media platforms have emerged as powerful channels for the dissemination of hate speech and offensive content. This work delves into the domain of hate speech detection, placing specific emphasis on three low-resource Indian languages: Bengali, Assamese, and Gujarati. The challenge is framed as a text classification task, aimed at discerning whether a tweet contains offensive or non-offensive content. Leveraging the HASOC 2023 datasets, we fine-tuned pre-trained BERT and SBERT models to evaluate their effectiveness in identifying hate speech. Our findings underscore the superiority of monolingual sentence-BERT models, particularly in the Bengali language, where we achieved the highest ranking. However, the performance in Assamese and Gujarati languages signifies ongoing opportunities for enhancement. Our goal is to foster inclusive online spaces by countering hate speech proliferation.

arxiv情報

著者 Ananya Joshi,Raviraj Joshi
発行日 2023-10-03 17:53:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク