The Use of a Large Language Model for Cyberbullying Detection

要約

ソーシャルメディアの支配により、加害者にとっていじめの経路が増えています。
残念ながら、ネットいじめ (CB) は今日のサイバー世界で最も蔓延している現象であり、国民の精神的および身体的健康に対する深刻な脅威となっています。
これにより、社会への影響を管理するために、オンライン フォーラム、ブログ、ソーシャル メディア プラットフォームからのいじめコンテンツを防止する堅牢なシステムを開発する必要性が生じています。
この目的のために、いくつかの機械学習 (ML) アルゴリズムが提案されています。
ただし、高級クラスの不均衡と一般化の問題により、パフォーマンスは一貫していません。
近年、BERT や RoBERTa などの大規模言語モデル (LLM) は、いくつかの自然言語処理 (NLP) タスクで最先端 (SOTA) の結果を達成しました。
残念ながら、LLM は CB 検出には広く適用されていません。
私たちの論文では、ネットいじめ (CB) の検出にこれらのモデルを使用する方法を検討しました。
既存の研究 (Formspring と Twitter) から新しいデータセット (D2) を準備しました。
データセット D1 および D2 の実験結果は、RoBERTa が他のモデルよりも優れていることを示しました。

要約(オリジナル)

The dominance of social media has added to the channels of bullying for perpetrators. Unfortunately, cyberbullying (CB) is the most prevalent phenomenon in todays cyber world, and is a severe threat to the mental and physical health of citizens. This opens the need to develop a robust system to prevent bullying content from online forums, blogs, and social media platforms to manage the impact in our society. Several machine learning (ML) algorithms have been proposed for this purpose. However, their performances are not consistent due to high class imbalance and generalisation issues. In recent years, large language models (LLMs) like BERT and RoBERTa have achieved state-of-the-art (SOTA) results in several natural language processing (NLP) tasks. Unfortunately, the LLMs have not been applied extensively for CB detection. In our paper, we explored the use of these models for cyberbullying (CB) detection. We have prepared a new dataset (D2) from existing studies (Formspring and Twitter). Our experimental results for dataset D1 and D2 showed that RoBERTa outperformed other models.

arxiv情報

著者 Bayode Ogunleye,Babitha Dharmaraj
発行日 2024-02-06 15:46:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, H.3.3, stat.AP パーマリンク