NLPineers@ NLU of Devanagari Script Languages 2025: Hate Speech Detection using Ensembling of BERT-based models

要約

この論文では、CHIPSAL@COLING 2025 共有タスクのサブタスク B について、ヒンディー語とネパール語に焦点を当てたデヴァナーガリー文字言語でのヘイトスピーチ検出について調査します。
XLM-RoBERTa、MURIL、IndicBERT などのさまざまなトランスフォーマー ベースのモデルを使用して、ヘイトスピーチと表現の自由の間の微妙な境界を乗り越える際のその有効性を検証します。
多言語 BERT モデルのアンサンブルとして実装された最高のパフォーマンスのモデルは、再現率 0.7762 (再現率のランク 3/31) と F1 スコア 0.6914 (ランク 17/31) を達成しました。
クラスの不均衡に対処するために、データ拡張に逆変換を使用し、拡張後にラベルの一貫性を維持するためにコサイン類似度を使用しました。
この研究は、デヴァナーガリー文字言語におけるヘイトスピーチ検出の必要性を強調し、さらなる研究の基礎を提供します。

要約(オリジナル)

This paper explores hate speech detection in Devanagari-scripted languages, focusing on Hindi and Nepali, for Subtask B of the CHIPSAL@COLING 2025 Shared Task. Using a range of transformer-based models such as XLM-RoBERTa, MURIL, and IndicBERT, we examine their effectiveness in navigating the nuanced boundary between hate speech and free expression. Our best performing model, implemented as ensemble of multilingual BERT models achieve Recall of 0.7762 (Rank 3/31 in terms of recall) and F1 score of 0.6914 (Rank 17/31). To address class imbalance, we used backtranslation for data augmentation, and cosine similarity to preserve label consistency after augmentation. This work emphasizes the need for hate speech detection in Devanagari-scripted languages and presents a foundation for further research.

arxiv情報

著者 Anmol Guragain,Nadika Poudel,Rajesh Piryani,Bishesh Khanal
発行日 2024-12-12 11:42:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク