OPSD: an Offensive Persian Social media Dataset and its baseline evaluations

要約

ソーシャルメディア上でのヘイトスピーチや攻撃的なコメントの蔓延は、ユーザーの活動によってますます蔓延しています。
このようなコメントは、個人の心理的健康や社会的行動に悪影響を与える可能性があります。
このドメインには英語の多数のデータセットが存在しますが、ペルシア語で利用できる同等のリソースはほとんどありません。
このギャップに対処するために、この文書では 2 つの攻撃的なデータセットを紹介します。
最初のデータセットはドメインの専門家によって提供されたアノテーションで構成され、2 番目のデータセットは教師なし学習を目的とした Web クローリングを通じて取得されたラベルのないデータの大規模なコレクションで構成されます。
前のデータセットの品質を保証するために、綿密な 3 段階のラベル付けプロセスが実行され、アノテーター間の一致を評価するためにカッパ測定値が計算されました。
さらに、現代の最先端技術を使用してデータセットのベースラインを確立するために、マスクされた言語モデリング技術と機械学習アルゴリズムを使用する場合と使用しない場合の両方で、最先端の言語モデルを使用してデータセットに対して実験が実行されました。
近づいてきます。
データセットの 3 クラス バージョンと 2 クラス バージョンで得られた F1 スコアは、XLM-RoBERTa でそれぞれ 76.9% と 89.9% でした。

要約(オリジナル)

The proliferation of hate speech and offensive comments on social media has become increasingly prevalent due to user activities. Such comments can have detrimental effects on individuals’ psychological well-being and social behavior. While numerous datasets in the English language exist in this domain, few equivalent resources are available for Persian language. To address this gap, this paper introduces two offensive datasets. The first dataset comprises annotations provided by domain experts, while the second consists of a large collection of unlabeled data obtained through web crawling for unsupervised learning purposes. To ensure the quality of the former dataset, a meticulous three-stage labeling process was conducted, and kappa measures were computed to assess inter-annotator agreement. Furthermore, experiments were performed on the dataset using state-of-the-art language models, both with and without employing masked language modeling techniques, as well as machine learning algorithms, in order to establish the baselines for the dataset using contemporary cutting-edge approaches. The obtained F1-scores for the three-class and two-class versions of the dataset were 76.9% and 89.9% for XLM-RoBERTa, respectively.

arxiv情報

著者 Mehran Safayani,Amir Sartipi,Amir Hossein Ahmadi,Parniyan Jalali,Amir Hossein Mansouri,Mohammad Bisheh-Niasar,Zahra Pourbahman
発行日 2024-04-08 14:08:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク