TuPy-E: detecting hate speech in Brazilian Portuguese social media with a novel dataset and comprehensive analysis of models

要約

ソーシャル メディアは人間の交流に不可欠なものとなり、コミュニケーションと表現のためのプラットフォームを提供しています。
しかし、これらのプラットフォームでのヘイトスピーチの増加は、個人やコミュニティに重大なリスクをもたらします。
ポルトガル語のような言語では、語彙が豊富で文法が複雑で、地域によってばらつきがあるため、ヘイトスピーチの検出と対処は特に困難です。
これに対処するために、ヘイトスピーチ検出用の注釈付き最大のポルトガル語コーパスである TuPy-E を導入します。
TuPy-E はオープンソース アプローチを活用し、研究コミュニティ内でのコラボレーションを促進します。
BERTモデルなどの高度な手法を用いて詳細な解析を行い、学術的理解と実用化の両立に貢献します。

要約(オリジナル)

Social media has become integral to human interaction, providing a platform for communication and expression. However, the rise of hate speech on these platforms poses significant risks to individuals and communities. Detecting and addressing hate speech is particularly challenging in languages like Portuguese due to its rich vocabulary, complex grammar, and regional variations. To address this, we introduce TuPy-E, the largest annotated Portuguese corpus for hate speech detection. TuPy-E leverages an open-source approach, fostering collaboration within the research community. We conduct a detailed analysis using advanced techniques like BERT models, contributing to both academic understanding and practical applications

arxiv情報

著者 Felipe Oliveira,Victoria Reis,Nelson Ebecken
発行日 2023-12-29 17:47:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク