Vulgar Remarks Detection in Chittagonian Dialect of Bangla

要約

インターネット、特にソーシャルメディアの普及に伴い、オンラインいじめや嫌がらせの悪影響は増大しています。
解決策の 1 つは、有害な発言の自動検出に自然言語処理 (NLP) および機械学習 (ML) 手法を使用することですが、これらの手法はバングラのチッタゴニア方言などの低リソース言語に限定されます。この研究は、言語の下品な発言の検出に焦点を当てています。
ロジスティック回帰は有望な精度 (0.91) を達成しましたが、Word2vec と fastTex を使用した単純な RNN は精度が低く (0.84 ~ 0.90)、NN アルゴリズムにはより多くのデータが必要であるという問題が浮き彫りになりました。

要約(オリジナル)

The negative effects of online bullying and harassment are increasing with Internet popularity, especially in social media. One solution is using natural language processing (NLP) and machine learning (ML) methods for the automatic detection of harmful remarks, but these methods are limited in low-resource languages like the Chittagonian dialect of Bangla.This study focuses on detecting vulgar remarks in social media using supervised ML and deep learning algorithms.Logistic Regression achieved promising accuracy (0.91) while simple RNN with Word2vec and fastTex had lower accuracy (0.84-0.90), highlighting the issue that NN algorithms require more data.

arxiv情報

著者 Tanjim Mahmud,Michal Ptaszynski,Fumito Masui
発行日 2023-08-29 17:19:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク