Classist Tools: Social Class Correlates with Performance in NLP


しかし、言語の社会人口統計的特性についての強力な証拠はありますが、自然言語処理 (NLP) ではそれらが使用されることはほとんどありません。
私たちは、NLP が恵まれない社会経済的グループに不利な点をもたらすことを経験的に示しています。
私たちは、映画からの 95,000 の発話のコーパスに社会階級、民族性、地理的言語の多様性を注釈付けし、言語モデリング、自動音声認識、文法エラー修正の 3 つのタスクで NLP システムのパフォーマンスを測定します。
NLP テクノロジーはますます普及し、日常的になりつつあり、すでに疎外されているグループに不利益を与えないよう、あらゆる言語の種類に対応する必要があります。


Since the foundational work of William Labov on the social stratification of language (Labov, 1964), linguistics has made concentrated efforts to explore the links between sociodemographic characteristics and language production and perception. But while there is strong evidence for socio-demographic characteristics in language, they are infrequently used in Natural Language Processing (NLP). Age and gender are somewhat well represented, but Labov’s original target, socioeconomic status, is noticeably absent. And yet it matters. We show empirically that NLP disadvantages less-privileged socioeconomic groups. We annotate a corpus of 95K utterances from movies with social class, ethnicity and geographical language variety and measure the performance of NLP systems on three tasks: language modelling, automatic speech recognition, and grammar error correction. We find significant performance disparities that can be attributed to socioeconomic status as well as ethnicity and geographical differences. With NLP technologies becoming ever more ubiquitous and quotidian, they must accommodate all language varieties to avoid disadvantaging already marginalised groups. We argue for the inclusion of socioeconomic class in future language technologies.


著者 Amanda Cercas Curry,Giuseppe Attanasio,Zeerak Talat,Dirk Hovy
発行日 2024-03-07 12:27:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク