Explain Thyself Bully: Sentiment Aided Cyberbullying Detection with Explanation

要約

さまざまなソーシャル メディア ネットワークやオンライン コミュニケーション アプリの普及に伴い、ネットいじめは大きな問題になっています。
単一言語でのネットいじめ検出のためのより良いモデルを開発するために多くの研究が行われていますが、コードが混在する言語とネットいじめの説明可能性の側面に関する研究はほとんどありません。
一般データ保護規則の「説明に対する権利」などの最近の法律により、パフォーマンスに焦点を当てるのではなく、解釈可能なモデルを開発する研究が促進されています。
これを動機として、コード混合言語からの自動ネットいじめ検出のための、{\em mExCB} と呼ばれる最初の解釈可能なマルチタスク モデルを開発しました。これは、複数のタスク、ネットいじめ検出、説明/根拠の特定、ターゲット グループの検出、感情分析を同時に解決できます。
コード混合言語で説明可能なネットいじめ検出のための最初のベンチマーク データセットである {\em BullyExplain} を導入しました。
{\em BullyExplain} データセット内の各投稿には 4 つのラベル、つまり、{\em いじめっ子ラベル、感情ラベル、ターゲットと根拠 (説明可能性)} の注釈が付けられます。つまり、どのフレーズが投稿をいじめっ子として注釈付けしているのかを示します。
単語とサブセンテンス (SS) レベルの注意を備えた CNN と GRU に基づいて提案されたマルチタスク フレームワーク (mExCB) は、{\em BullyExplain} データセットに適用すると、いくつかのベースラインや最先端の​​モデルを上回るパフォーマンスを発揮できます。

要約(オリジナル)

Cyberbullying has become a big issue with the popularity of different social media networks and online communication apps. While plenty of research is going on to develop better models for cyberbullying detection in monolingual language, there is very little research on the code-mixed languages and explainability aspect of cyberbullying. Recent laws like ‘right to explanations’ of General Data Protection Regulation, have spurred research in developing interpretable models rather than focusing on performance. Motivated by this we develop the first interpretable multi-task model called {\em mExCB} for automatic cyberbullying detection from code-mixed languages which can simultaneously solve several tasks, cyberbullying detection, explanation/rationale identification, target group detection and sentiment analysis. We have introduced {\em BullyExplain}, the first benchmark dataset for explainable cyberbullying detection in code-mixed language. Each post in {\em BullyExplain} dataset is annotated with four labels, i.e., {\em bully label, sentiment label, target and rationales (explainability)}, i.e., which phrases are being responsible for annotating the post as a bully. The proposed multitask framework (mExCB) based on CNN and GRU with word and sub-sentence (SS) level attention is able to outperform several baselines and state of the art models when applied on {\em BullyExplain} dataset.

arxiv情報

著者 Krishanu Maity,Prince Jha,Raghav Jain,Sriparna Saha,Pushpak Bhattacharyya
発行日 2024-01-17 07:36:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク