Machines Do See Color: A Guideline to Classify Different Forms of Racist Discourse in Large Corpora

要約

テキスト内の人種差別的言語を特定および分類する現在の方法は、人種差別的言説の明白な形式のみに焦点を当てた、小 n 定性的アプローチまたは大 n アプローチに依存しています。
この記事では、大規模なコーパス内のさまざまな形式の人種差別的言説を特定して分類するための、段階的な一般化可能なガイドラインを提供します。
私たちのアプローチでは、人種差別とそのさまざまな現れを概念化することから始めます。
次に、これらの人種差別の表明を関心のある時間と場所に文脈化して、研究者がその言説の形式を特定できるようにします。
最後に、テキストの最先端の文脈理解を備えた教師付きテキスト分類のための言語間モデルである XLM-RoBERTa (XLM-R) を適用します。
私たちの事前学習済みモデルである XLM-R および XLM-R-Racismo が、大規模なコーパスにおける人種差別の分類において他の最先端のアプローチよりも優れていることを示します。
2018 年から 2021 年までのエクアドルのインドイジェナ コミュニティに関連するツイートのコーパスを使用して、私たちのアプローチを説明します。

要約(オリジナル)

Current methods to identify and classify racist language in text rely on small-n qualitative approaches or large-n approaches focusing exclusively on overt forms of racist discourse. This article provides a step-by-step generalizable guideline to identify and classify different forms of racist discourse in large corpora. In our approach, we start by conceptualizing racism and its different manifestations. We then contextualize these racist manifestations to the time and place of interest, which allows researchers to identify their discursive form. Finally, we apply XLM-RoBERTa (XLM-R), a cross-lingual model for supervised text classification with a cutting-edge contextual understanding of text. We show that XLM-R and XLM-R-Racismo, our pretrained model, outperform other state-of-the-art approaches in classifying racism in large corpora. We illustrate our approach using a corpus of tweets relating to the Ecuadorian ind\’igena community between 2018 and 2021.

arxiv情報

著者 Diana Davila Gordillo,Joan Timoneda,Sebastian Vallejo Vera
発行日 2024-01-17 16:57:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク