要約
言語の社会階層化に関するウィリアム・ラボフの基礎的な研究(ラボフ、1964)以来、言語学は社会人口学的特性と言語の生成および知覚との間の関連性を探求することに集中的な努力を行ってきた。
しかし、言語の社会人口統計的特性についての強力な証拠はありますが、自然言語処理 (NLP) ではそれらが使用されることはほとんどありません。
年齢と性別はある程度よく表現されているが、ラボフの当初の目標である社会経済的地位は著しく欠如している。
それでも、それは重要です。
私たちは、NLP が恵まれない社会経済的グループに不利な点をもたらすことを経験的に示しています。
私たちは、映画からの 95,000 の発話のコーパスに社会階級、民族性、地理的言語の多様性を注釈付けし、言語モデリング、自動音声認識、文法エラー修正の 3 つのタスクで NLP システムのパフォーマンスを測定します。
私たちは、社会経済的地位、民族性、地理的違いに起因する可能性のある重大なパフォーマンス格差を発見しました。
NLP テクノロジーはますます普及し、日常的になりつつあり、すでに疎外されているグループに不利益を与えないよう、あらゆる言語の種類に対応する必要があります。
私たちは、将来の言語技術に社会経済的階級を含めることを主張します。
要約(オリジナル)
Since the foundational work of William Labov on the social stratification of language (Labov, 1964), linguistics has made concentrated efforts to explore the links between sociodemographic characteristics and language production and perception. But while there is strong evidence for socio-demographic characteristics in language, they are infrequently used in Natural Language Processing (NLP). Age and gender are somewhat well represented, but Labov’s original target, socioeconomic status, is noticeably absent. And yet it matters. We show empirically that NLP disadvantages less-privileged socioeconomic groups. We annotate a corpus of 95K utterances from movies with social class, ethnicity and geographical language variety and measure the performance of NLP systems on three tasks: language modelling, automatic speech recognition, and grammar error correction. We find significant performance disparities that can be attributed to socioeconomic status as well as ethnicity and geographical differences. With NLP technologies becoming ever more ubiquitous and quotidian, they must accommodate all language varieties to avoid disadvantaging already marginalised groups. We argue for the inclusion of socioeconomic class in future language technologies.
arxiv情報
著者 | Amanda Cercas Curry,Giuseppe Attanasio,Zeerak Talat,Dirk Hovy |
発行日 | 2024-03-07 12:27:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google