Ensemble of pre-trained language models and data augmentation for hate speech detection from Arabic tweets

要約

今日、アラビア語のツイートからのヘイトスピーチ分類が数人の研究者の注目を集めています。
この分類タスクを解決するために、多くのシステムと技術が開発されてきました。
それにもかかわらず、この状況で直面する 2 つの大きな課題は、パフォーマンスの制限とデータの不均衡の問題です。
この研究では、以前に手動でラベル付けされたアンサンブル学習と半教師あり学習を活用する新しいアプローチを提案します。
私たちは、アラビア語のツイートを非ヘイト、一般的なヘイト、人種、宗教、または性差別の 5 つの異なるクラスに分類するベンチマーク データセットで実験を実施しました。
実験結果は次のことを示しています。(1) 事前トレーニングされた言語モデルに基づくアンサンブル学習は、既存の関連研究よりも優れています。
(2) 私たちが提案するデータ拡張は、アラビア語のツイートからのヘイトスピーチ検出結果の精度を向上させ、既存の関連研究を上回るパフォーマンスを示します。
私たちの主な貢献は、アラビア語のヘイトスピーチ検出において有望な結果を達成したことです。

要約(オリジナル)

Today, hate speech classification from Arabic tweets has drawn the attention of several researchers. Many systems and techniques have been developed to resolve this classification task. Nevertheless, two of the major challenges faced in this context are the limited performance and the problem of imbalanced data. In this study, we propose a novel approach that leverages ensemble learning and semi-supervised learning based on previously manually labeled. We conducted experiments on a benchmark dataset by classifying Arabic tweets into 5 distinct classes: non-hate, general hate, racial, religious, or sexism. Experimental results show that: (1) ensemble learning based on pre-trained language models outperforms existing related works; (2) Our proposed data augmentation improves the accuracy results of hate speech detection from Arabic tweets and outperforms existing related works. Our main contribution is the achievement of encouraging results in Arabic hate speech detection.

arxiv情報

著者 Kheir Eddine Daouadi,Yaakoub Boualleg,Kheir Eddine Haouaouchi
発行日 2024-07-02 17:26:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク