Causality Guided Disentanglement for Cross-Platform Hate Speech Detection

要約

ソーシャル メディア プラットフォームは、オープンな議論を促進するという価値があるにもかかわらず、有害なコンテンツを拡散するために悪用されることがよくあります。
この有害なコンテンツの検出に使用されている現在の深層学習および自然言語処理モデルは、ドメイン固有の用語に過度に依存しており、一般化可能なヘイトスピーチ検出に適応する機能に影響を与えています。
これは、彼らが特定の言語シグナルや特定のカテゴリの単語の使用にあまりにも狭く焦点を合わせる傾向があるためです。
プラットフォームにトレーニング用の高品質の注釈付きデータが不足している場合、別の重大な課題が発生し、さまざまな分布の変化に適応できるクロスプラットフォーム モデルの必要性が生じます。
私たちの研究では、1 つのプラットフォームのデータでトレーニングし、複数の目に見えないプラットフォームに汎用化できる、クロスプラットフォームのヘイトスピーチ検出モデルを導入しています。
プラットフォーム間で優れた一般化性を実現するには、入力表現を不変のプラットフォーム依存の特徴に分解することが 1 つの方法です。
また、多様な環境にわたって一定に保たれる因果関係を学習することは、ヘイトスピーチにおける不変表現の理解に大きく役立つ可能性があると主張します。
プラットフォームに依存する特徴 (ヘイトターゲットの予測に役立ちます) とプラットフォームに依存しない特徴 (ヘイトの存在を予測するために使用されます) への入力を解きほぐすことで、分布の変化に強い不変表現を学習します。
これらの機能は、目に見えないプラットフォーム全体でのヘイトスピーチを予測するために使用されます。
4 つのプラットフォームにわたる広範な実験により、一般化されたヘイトスピーチの検出において、既存の最先端の方法と比較して当社のモデルの有効性が向上していることが強調されています。

要約(オリジナル)

Social media platforms, despite their value in promoting open discourse, are often exploited to spread harmful content. Current deep learning and natural language processing models used for detecting this harmful content overly rely on domain-specific terms affecting their capabilities to adapt to generalizable hate speech detection. This is because they tend to focus too narrowly on particular linguistic signals or the use of certain categories of words. Another significant challenge arises when platforms lack high-quality annotated data for training, leading to a need for cross-platform models that can adapt to different distribution shifts. Our research introduces a cross-platform hate speech detection model capable of being trained on one platform’s data and generalizing to multiple unseen platforms. To achieve good generalizability across platforms, one way is to disentangle the input representations into invariant and platform-dependent features. We also argue that learning causal relationships, which remain constant across diverse environments, can significantly aid in understanding invariant representations in hate speech. By disentangling input into platform-dependent features (useful for predicting hate targets) and platform-independent features (used to predict the presence of hate), we learn invariant representations resistant to distribution shifts. These features are then used to predict hate speech across unseen platforms. Our extensive experiments across four platforms highlight our model’s enhanced efficacy compared to existing state-of-the-art methods in detecting generalized hate speech.

arxiv情報

著者 Paras Sheth,Tharindu Kumarage,Raha Moraffah,Aman Chadha,Huan Liu
発行日 2023-08-10 18:32:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク