The Constant in HATE: Analyzing Toxicity in Reddit across Topics and Languages

要約

有害な言語は依然としてソーシャル メディア プラットフォーム上で継続的な課題であり、ユーザーとコミュニティに重大な問題をもたらしています。
この論文では、Reddit での会話における有害性について、トピック間および言語間を横断して分析を提供します。
英語、ドイツ語、スペイン語、トルコ語、アラビア語、オランダ語の 6 か国語で 481 のコミュニティから 150 万件のコメント スレッドを収集し、文化、政治、ニュースなどの 80 のトピックをカバーしています。
私たちは、特定のトピックに関連して、さまざまなコミュニティ内で毒性がどのように急増するかを徹底的に分析します。
私たちは、特定のトピックについて言語間で毒性が増加する一貫したパターンを観察していますが、特定の言語コミュニティ内での大きな差異にも注目しています。

要約(オリジナル)

Toxic language remains an ongoing challenge on social media platforms, presenting significant issues for users and communities. This paper provides a cross-topic and cross-lingual analysis of toxicity in Reddit conversations. We collect 1.5 million comment threads from 481 communities in six languages: English, German, Spanish, Turkish,Arabic, and Dutch, covering 80 topics such as Culture, Politics, and News. We thoroughly analyze how toxicity spikes within different communities in relation to specific topics. We observe consistent patterns of increased toxicity across languages for certain topics, while also noting significant variations within specific language communities.

arxiv情報

著者 Wondimagegnhue Tsegaye Tufa,Ilia Markov,Piek Vossen
発行日 2024-04-29 14:14:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク