HCDIR: End-to-end Hate Context Detection, and Intensity Reduction model for online comments

要約

警告: この文書には、一部の人が不快に感じる可能性のある言葉の例が含まれています。
憎しみに満ちた、罵倒的、攻撃的なコメントを検出して削減することは、ソーシャル メディアにおける重要かつ困難な作業です。
さらに、ヘイトスピーチの強度を軽減することを目的とした研究はほとんどありません。
嫌がらせのコメントを検出するには文脈レベルの意味論が重要であることが研究で示されていますが、利用可能なデータセットが豊富であるため、この研究のほとんどは英語に焦点を当てています。
対照的に、インド言語のような低リソース言語は、データセットが限られているため、依然として研究が進んでいません。
ヘイトスピーチの検出とは対照的に、ヘイト強度の低減は、高リソース言語および低リソース言語においてはまだ研究されていません。
この論文では、ソーシャルメディア投稿におけるヘイトコンテキスト検出とヘイト強度低減のための新しいエンドツーエンドモデル HCDIR を提案します。
まず、嫌がらせコメントを検出するためにいくつかの事前トレーニング済み言語モデルを微調整し、最もパフォーマンスの高い嫌がらせコメント検出モデルを確認しました。
次に、文脈に応じた嫌な言葉を特定しました。
このような嫌な言葉の特定は、最先端の説明可能な学習モデル、つまり統合勾配 (IG) を通じて正当化されます。
最後に、マスク言語モデリング (MLM) モデルを使用して、ドメイン固有の微妙なニュアンスを捉え、憎しみの強さを軽減しました。
嫌がらせとして特定されたコメントの 50\% の嫌がらせの単語をマスクし、これらのマスクされた用語の代替単語を予測して、説得力のある文章を生成しました。
実行可能な文章から元の嫌がらせコメントを最適に置き換えることが望まれます。
自動メトリクスベース評価 (BERTScore) と徹底的な人による評価を使用して、いくつかの最近のデータセットに対して広範な実験が行われています。
人間による評価の忠実性を高めるために、さまざまな専門知識を持つ 3 人のヒューマン・アノテーターのグループを配置しました。

要約(オリジナル)

Warning: This paper contains examples of the language that some people may find offensive. Detecting and reducing hateful, abusive, offensive comments is a critical and challenging task on social media. Moreover, few studies aim to mitigate the intensity of hate speech. While studies have shown that context-level semantics are crucial for detecting hateful comments, most of this research focuses on English due to the ample datasets available. In contrast, low-resource languages, like Indian languages, remain under-researched because of limited datasets. Contrary to hate speech detection, hate intensity reduction remains unexplored in high-resource and low-resource languages. In this paper, we propose a novel end-to-end model, HCDIR, for Hate Context Detection, and Hate Intensity Reduction in social media posts. First, we fine-tuned several pre-trained language models to detect hateful comments to ascertain the best-performing hateful comments detection model. Then, we identified the contextual hateful words. Identification of such hateful words is justified through the state-of-the-art explainable learning model, i.e., Integrated Gradient (IG). Lastly, the Masked Language Modeling (MLM) model has been employed to capture domain-specific nuances to reduce hate intensity. We masked the 50\% hateful words of the comments identified as hateful and predicted the alternative words for these masked terms to generate convincing sentences. An optimal replacement for the original hate comments from the feasible sentences is preferred. Extensive experiments have been conducted on several recent datasets using automatic metric-based evaluation (BERTScore) and thorough human evaluation. To enhance the faithfulness in human evaluation, we arranged a group of three human annotators with varied expertise.

arxiv情報

著者 Neeraj Kumar Singh,Koyel Ghosh,Joy Mahapatra,Utpal Garain,Apurbalal Senapati
発行日 2023-12-20 17:05:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク