Cross-Linguistic Offensive Language Detection: BERT-Based Analysis of Bengali, Assamese, & Bodo Conversational Hateful Content from Social Media

要約

今日の時代では、ソーシャル メディアが最も重要なコミュニケーション プラットフォームとして君臨し、個人に自分の推測、知的提案、考察を表現する手段を提供しています。
残念ながら、この自由にはしばしばマイナス面が伴い、ヘイトスピーチや攻撃的なコンテンツの蔓延を促進し、私たちの世界に悪影響を及ぼします。
したがって、そのような不快な内容を識別し、ソーシャルメディアの領域から根絶することが不可欠になります。
この記事では、HASOC-2023 の不快な言語の識別結果から得られた包括的な結果と重要な発見について詳しく説明します。
主な重点は、ベンガル語、アッサム語、ボド語の言語領域内でのヘイトスピーチの細心の注意を払って検出され、タスク 4: ヘイトの撲滅の枠組みを形成します。
この作業では、XML-Roberta、L3-cube、IndicBERT、BenglaBERT、BanglaHateBERT などの BERT モデルを使用しました。
研究結果は有望で、ほとんどの場合、XML-Roberta-lagre が単一言語モデルよりも優れたパフォーマンスを発揮することが示されました。
私たちのチーム「TeamBD」は、タスク 4 – アッサム語で 3 位、ベンガル語で 5 位を達成しました。

要約(オリジナル)

In today’s age, social media reigns as the paramount communication platform, providing individuals with the avenue to express their conjectures, intellectual propositions, and reflections. Unfortunately, this freedom often comes with a downside as it facilitates the widespread proliferation of hate speech and offensive content, leaving a deleterious impact on our world. Thus, it becomes essential to discern and eradicate such offensive material from the realm of social media. This article delves into the comprehensive results and key revelations from the HASOC-2023 offensive language identification result. The primary emphasis is placed on the meticulous detection of hate speech within the linguistic domains of Bengali, Assamese, and Bodo, forming the framework for Task 4: Annihilate Hates. In this work, we used BERT models, including XML-Roberta, L3-cube, IndicBERT, BenglaBERT, and BanglaHateBERT. The research outcomes were promising and showed that XML-Roberta-lagre performed better than monolingual models in most cases. Our team ‘TeamBD’ achieved rank 3rd for Task 4 – Assamese, & 5th for Bengali.

arxiv情報

著者 Jhuma Kabir Mim,Mourad Oussalah,Akash Singhal
発行日 2023-12-16 19:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク