Hate speech detection in algerian dialect using deep learning

要約

ソーシャルネットワーク上で、暴言、ネットいじめ、暴力など、さまざまな形式でのヘイトスピーチが蔓延するにつれて、人々は暴力の大幅な増加を経験し、不快な状況や脅威にさらされています。
過去数年間、この現象を克服し、英語、フランス語、アラビア語などのさまざまな構造化言語によるヘイトスピーチを検出するために多くの努力が払われてきました。
ただし、チュニジア語、エジプト語、湾岸語などのアラビア語方言、主にアルジェリア語を扱った作品の数は減少しています。
このギャップを埋めるために、私たちはこの研究で、オンラインのアルジェリアのメッセージ上のヘイトスピーチを検出するための完全なアプローチを提案します。
多くの深層学習アーキテクチャは、アルジェリアのソーシャル ネットワーク (Facebook、YouTube、Twitter) から作成したコーパスで評価されています。
このコーパスには、アラビア語で書かれたアルジェリアの方言で書かれた 13.5,000 以上の文書が含まれており、憎しみに満ちたものまたは憎しみに満ちていないものとしてラベル付けされています。
有望な結果が得られ、これは私たちのアプローチの効率性を示しています。

要約(オリジナル)

With the proliferation of hate speech on social networks under different formats, such as abusive language, cyberbullying, and violence, etc., people have experienced a significant increase in violence, putting them in uncomfortable situations and threats. Plenty of efforts have been dedicated in the last few years to overcome this phenomenon to detect hate speech in different structured languages like English, French, Arabic, and others. However, a reduced number of works deal with Arabic dialects like Tunisian, Egyptian, and Gulf, mainly the Algerian ones. To fill in the gap, we propose in this work a complete approach for detecting hate speech on online Algerian messages. Many deep learning architectures have been evaluated on the corpus we created from some Algerian social networks (Facebook, YouTube, and Twitter). This corpus contains more than 13.5K documents in Algerian dialect written in Arabic, labeled as hateful or non-hateful. Promising results are obtained, which show the efficiency of our approach.

arxiv情報

著者 Dihia Lanasri,Juan Olano,Sifal Klioui,Sin Liang Lee,Lamia Sekkai
発行日 2024-10-25 17:32:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク