On Importance of Code-Mixed Embeddings for Hate Speech Identification

要約

コードミキシングとは、単一の文の中で 2 つ以上の言語を使用する行為であり、人々が複数の言語を話すのが一般的なインドなどの多言語コミュニティで頻繁に発生します。
単一言語データでトレーニングされた従来の NLP ツールは、コードが混在したデータを処理する際に課題に直面します。
複数の言語を含む文章から意味のある情報を抽出することは、特にヘイトスピーチ検出などのタスクにおいて、言語の違い、文化的ニュアンス、データの希薄さにより困難になります。
これに対処するために、コード混合埋め込みの重要性を分析し、ヘイトスピーチ検出における BERT および HingBERT モデル (ヒンディー語と英語のコーパスでトレーニングされた) のパフォーマンスを評価することを目的としています。
私たちの調査では、広範なヒンディー語と英語のデータセット L3Cube-HingCorpus でのトレーニングの恩恵を受ける HingBERT モデルが、ヘイトスピーチ テキスト データセットでテストした場合に BERT モデルよりも優れたパフォーマンスを発揮することが実証されました。
また、コードを混合した Hing-FastText は、標準の英語 FastText モデルやバニラ BERT モデルよりもパフォーマンスが高いこともわかりました。

要約(オリジナル)

Code-mixing is the practice of using two or more languages in a single sentence, which often occurs in multilingual communities such as India where people commonly speak multiple languages. Classic NLP tools, trained on monolingual data, face challenges when dealing with code-mixed data. Extracting meaningful information from sentences containing multiple languages becomes difficult, particularly in tasks like hate speech detection, due to linguistic variation, cultural nuances, and data sparsity. To address this, we aim to analyze the significance of code-mixed embeddings and evaluate the performance of BERT and HingBERT models (trained on a Hindi-English corpus) in hate speech detection. Our study demonstrates that HingBERT models, benefiting from training on the extensive Hindi-English dataset L3Cube-HingCorpus, outperform BERT models when tested on hate speech text datasets. We also found that code-mixed Hing-FastText performs better than standard English FastText and vanilla BERT models.

arxiv情報

著者 Shruti Jagdale,Omkar Khade,Gauri Takalikar,Mihir Inamdar,Raviraj Joshi
発行日 2024-11-27 18:23:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク