Bridging the gap in online hate speech detection: a comparative analysis of BERT and traditional models for homophobic content identification on X/Twitter

要約

私たちの研究は、感情分析研究では無視されがちな同性愛嫌悪に焦点を当てることで、オンラインのヘイトスピーチ検出研究における大きなギャップに対処しています。
高度な感情分析モデル、特に BERT と従来の機械学習手法を利用して、X/Twitter 上の同性愛嫌悪的なコンテンツを特定するための微妙なアプローチを開発しました。
検出モデルでは同性愛嫌悪が依然として過小評価されているため、この研究は非常に重要です。
私たちの調査結果から、BERT は従来の方法よりも優れたパフォーマンスを発揮しますが、検証手法の選択がモデルのパフォーマンスに影響を与える可能性があることが明らかになりました。
これは、微妙なヘイトスピーチを検出する際に文脈を理解することが重要であることを強調しています。
私たちが知っている同性愛嫌悪検出用の最大のオープンソースのラベル付き英語データセット、さまざまなモデルのパフォーマンス分析、および最も強力な BERT ベースのモデルをリリースすることで、オンラインの安全性と包括性を強化することを目指しています。
今後の取り組みは、より広範な LGBTQIA+ ヘイトスピーチ検出に拡張され、多様なデータセットを入手するという課題に対処する予定です。
この取り組みを通じて、私たちはオンラインヘイトに対するより大きな取り組みに貢献し、より包括的なデジタル環境を提唱します。
私たちの研究は、以前の研究結果を改善することで同性愛嫌悪的なコンテンツを効果的に検出するための洞察を提供するだけでなく、ヘイトスピーチ分析における将来の進歩のための基礎も築きます。

要約(オリジナル)

Our study addresses a significant gap in online hate speech detection research by focusing on homophobia, an area often neglected in sentiment analysis research. Utilising advanced sentiment analysis models, particularly BERT, and traditional machine learning methods, we developed a nuanced approach to identify homophobic content on X/Twitter. This research is pivotal due to the persistent underrepresentation of homophobia in detection models. Our findings reveal that while BERT outperforms traditional methods, the choice of validation technique can impact model performance. This underscores the importance of contextual understanding in detecting nuanced hate speech. By releasing the largest open-source labelled English dataset for homophobia detection known to us, an analysis of various models’ performance and our strongest BERT-based model, we aim to enhance online safety and inclusivity. Future work will extend to broader LGBTQIA+ hate speech detection, addressing the challenges of sourcing diverse datasets. Through this endeavour, we contribute to the larger effort against online hate, advocating for a more inclusive digital landscape. Our study not only offers insights into the effective detection of homophobic content by improving on previous research results, but it also lays groundwork for future advancements in hate speech analysis.

arxiv情報

著者 Josh McGiff,Nikola S. Nikolov
発行日 2024-05-15 10:02:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2 パーマリンク