要約
ソーシャル メディアは人間の交流に不可欠なものとなり、コミュニケーションと表現のためのプラットフォームを提供しています。
しかし、これらのプラットフォームでのヘイトスピーチの増加は、個人やコミュニティに重大なリスクをもたらします。
ポルトガル語のような言語では、語彙が豊富で文法が複雑で、地域によってばらつきがあるため、ヘイトスピーチの検出と対処は特に困難です。
これに対処するために、ヘイトスピーチ検出用の注釈付き最大のポルトガル語コーパスである TuPy-E を導入します。
TuPy-E はオープンソース アプローチを活用し、研究コミュニティ内でのコラボレーションを促進します。
BERTモデルなどの高度な手法を用いて詳細な解析を行い、学術的理解と実用化の両立に貢献します。
要約(オリジナル)
Social media has become integral to human interaction, providing a platform for communication and expression. However, the rise of hate speech on these platforms poses significant risks to individuals and communities. Detecting and addressing hate speech is particularly challenging in languages like Portuguese due to its rich vocabulary, complex grammar, and regional variations. To address this, we introduce TuPy-E, the largest annotated Portuguese corpus for hate speech detection. TuPy-E leverages an open-source approach, fostering collaboration within the research community. We conduct a detailed analysis using advanced techniques like BERT models, contributing to both academic understanding and practical applications
arxiv情報
| 著者 | Felipe Oliveira,Victoria Reis,Nelson Ebecken |
| 発行日 | 2023-12-29 17:47:00+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google