要約
ソーシャルメディアプラットフォームの急増により、ヘイトスピーチの広がりが増加し、特に脆弱なコミュニティを標的にしています。
残念ながら、有毒言語を自動的に識別してブロックするための既存の方法は、事前に構築された辞書に依存しており、適応性ではなく反応性があります。
そのため、これらのアプローチは、特に新しいコミュニティが元のデータセットに含まれていないスラーで対象となる場合、時間の経過とともに効果が低くなります。
この問題に対処するために、単語の埋め込みを使用してレキシコンを更新し、新たなスラーと新しい言語パターンに適応するハイブリッドモデルを開発する適応アプローチを提示します。
このアプローチは、検出を避けるために攻撃者が採用した意図的なスペルミスを含む、有毒言語を効果的に検出できます。
BERTとレキシコンベースの技術を組み合わせたハイブリッドモデルは、ほとんどの最先端のデータセットで95%の精度を達成しています。
私たちの仕事は、有毒な含有量の検出を改善し、レキシコンを積極的に更新することにより、より安全なオンライン環境を作成することに大きな意味があります。
コンテンツ警告:この論文には、トリガーする可能性のあるヘイトスピーチの例が含まれています。
要約(オリジナル)
The proliferation of social media platforms has led to an increase in the spread of hate speech, particularly targeting vulnerable communities. Unfortunately, existing methods for automatically identifying and blocking toxic language rely on pre-constructed lexicons, making them reactive rather than adaptive. As such, these approaches become less effective over time, especially when new communities are targeted with slurs not included in the original datasets. To address this issue, we present an adaptive approach that uses word embeddings to update lexicons and develop a hybrid model that adjusts to emerging slurs and new linguistic patterns. This approach can effectively detect toxic language, including intentional spelling mistakes employed by aggressors to avoid detection. Our hybrid model, which combines BERT with lexicon-based techniques, achieves an accuracy of 95% for most state-of-the-art datasets. Our work has significant implications for creating safer online environments by improving the detection of toxic content and proactively updating the lexicon. Content Warning: This paper contains examples of hate speech that may be triggering.
arxiv情報
著者 | Shiza Ali,Jeremy Blackburn,Gianluca Stringhini |
発行日 | 2025-02-21 14:41:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google