Machines Do See Color: A Guideline to Classify Different Forms of Racist Discourse in Large Corpora


テキスト内の人種差別的言語を特定および分類する現在の方法は、人種差別的言説の明白な形式のみに焦点を当てた、小 n 定性的アプローチまたは大 n アプローチに依存しています。
最後に、テキストの最先端の文脈理解を備えた教師付きテキスト分類のための言語間モデルである XLM-RoBERTa (XLM-R) を適用します。
私たちの事前学習済みモデルである XLM-R および XLM-R-Racismo が、大規模なコーパスにおける人種差別の分類において他の最先端のアプローチよりも優れていることを示します。
2018 年から 2021 年までのエクアドルのインドイジェナ コミュニティに関連するツイートのコーパスを使用して、私たちのアプローチを説明します。


Current methods to identify and classify racist language in text rely on small-n qualitative approaches or large-n approaches focusing exclusively on overt forms of racist discourse. This article provides a step-by-step generalizable guideline to identify and classify different forms of racist discourse in large corpora. In our approach, we start by conceptualizing racism and its different manifestations. We then contextualize these racist manifestations to the time and place of interest, which allows researchers to identify their discursive form. Finally, we apply XLM-RoBERTa (XLM-R), a cross-lingual model for supervised text classification with a cutting-edge contextual understanding of text. We show that XLM-R and XLM-R-Racismo, our pretrained model, outperform other state-of-the-art approaches in classifying racism in large corpora. We illustrate our approach using a corpus of tweets relating to the Ecuadorian ind\’igena community between 2018 and 2021.


