要約
ソーシャルメディアプラットフォームは、オープンな言論を促進するという価値にもかかわらず、有害なコンテンツを拡散するために悪用されることが多い。この有害なコンテンツを検出するために使用される現在のディープラーニングや自然言語処理モデルは、ドメイン固有の用語に過度に依存しており、一般化可能なヘイトスピーチ検出に適応する能力に影響を及ぼしている。これは、特定の言語信号や特定のカテゴリーの単語の使用に焦点を絞りすぎる傾向があるためである。もう一つの重要な課題は、プラットフォームにトレーニング用の高品質なアノテーションデータがない場合に生じ、異なる配信シフトに適応できるクロスプラットフォームモデルの必要性につながる。本研究では、1つのプラットフォームのデータで学習し、未見の複数のプラットフォームに汎化できるクロスプラットフォームのヘイトスピーチ検出モデルを紹介する。プラットフォーム間で良好な汎化性を達成するためには、入力表現を不変な特徴とプラットフォーム依存の特徴に分離することが一つの方法である。また、多様な環境においても不変である因果関係を学習することで、ヘイトスピーチの不変表現を理解する上で大きな助けとなることを主張する。入力をプラットフォーム依存特徴(ヘイトターゲットの予測に有用)とプラットフォーム非依存特徴(ヘイトの有無の予測に使用)に分離することで、分布の変化に強い不変表現を学習する。これらの特徴を用いて、未見のプラットフォームにおけるヘイトスピーチを予測する。4つのプラットフォームにおける広範な実験により、本モデルが一般化されたヘイトスピーチを検出する上で、既存の最先端手法と比較してより高い有効性を持つことが明らかになった。
要約(オリジナル)
Social media platforms, despite their value in promoting open discourse, are often exploited to spread harmful content. Current deep learning and natural language processing models used for detecting this harmful content overly rely on domain-specific terms affecting their capabilities to adapt to generalizable hate speech detection. This is because they tend to focus too narrowly on particular linguistic signals or the use of certain categories of words. Another significant challenge arises when platforms lack high-quality annotated data for training, leading to a need for cross-platform models that can adapt to different distribution shifts. Our research introduces a cross-platform hate speech detection model capable of being trained on one platform’s data and generalizing to multiple unseen platforms. To achieve good generalizability across platforms, one way is to disentangle the input representations into invariant and platform-dependent features. We also argue that learning causal relationships, which remain constant across diverse environments, can significantly aid in understanding invariant representations in hate speech. By disentangling input into platform-dependent features (useful for predicting hate targets) and platform-independent features (used to predict the presence of hate), we learn invariant representations resistant to distribution shifts. These features are then used to predict hate speech across unseen platforms. Our extensive experiments across four platforms highlight our model’s enhanced efficacy compared to existing state-of-the-art methods in detecting generalized hate speech.
arxiv情報
著者 | Paras Sheth,Tharindu Kumarage,Raha Moraffah,Aman Chadha,Huan Liu |
発行日 | 2023-08-03 23:39:03+00:00 |
arxivサイト | arxiv_id(pdf) |