要約
英語のデータセットは主に特定の国籍の視点を反映しているため、モデルやデータセットに文化的な偏見が生じる可能性があります。
これは、ヘイトスピーチの検出など、主観に大きく影響されるタスクでは特に問題になります。
さまざまな国の個人がヘイトスピーチをどのように認識しているかを詳しく調べるために、サンプリングされた SBIC データセットの異文化再アノテーションである CReHate を紹介します。
このデータセットには、オーストラリア、シンガポール、南アフリカ、英国、米国の 5 つの異なる国からのアノテーションが含まれています。
当社の徹底的な統計分析により、国籍に基づく大きな違いが明らかになり、すべての国の間でコンセンサスに達したサンプルは 59.4% のみでした。
また、さまざまな国籍の視点を捉えることに優れた、転移学習を介した文化的に敏感なヘイトスピーチ分類器も導入します。
これらの発見は、特に英語におけるヘイトスピーチの微妙な性質に関して、NLP 研究の特定の側面を再評価する必要性を強調しています。
要約(オリジナル)
English datasets predominantly reflect the perspectives of certain nationalities, which can lead to cultural biases in models and datasets. This is particularly problematic in tasks heavily influenced by subjectivity, such as hate speech detection. To delve into how individuals from different countries perceive hate speech, we introduce CReHate, a cross-cultural re-annotation of the sampled SBIC dataset. This dataset includes annotations from five distinct countries: Australia, Singapore, South Africa, the United Kingdom, and the United States. Our thorough statistical analysis highlights significant differences based on nationality, with only 59.4% of the samples achieving consensus among all countries. We also introduce a culturally sensitive hate speech classifier via transfer learning, adept at capturing perspectives of different nationalities. These findings underscore the need to re-evaluate certain aspects of NLP research, especially with regard to the nuanced nature of hate speech in the English language.
arxiv情報
著者 | Nayeon Lee,Chani Jung,Junho Myung,Jiho Jin,Juho Kim,Alice Oh |
発行日 | 2023-08-31 13:14:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google