Impoverished Language Technology: The Lack of (Social) Class in NLP

要約

Labov (1964) が言語の社会階層化に関する基礎研究を行って以来、言語学は社会人口統計的要因と言語の生成および知覚との関係の理解に向けて協調的な取り組みを行ってきました。
社会人口統計的要因と言語生成の間の重要な関係を特定する証拠は数多くあるにもかかわらず、これらの要因のうち NLP テクノロジーの文脈で調査されたものは比較的少数です。
年齢と性別は十分にカバーされているが、ラボフの当初のターゲットである社会経済階級はほとんど記載されていない。
私たちは既存の自然言語処理 (NLP) 文献を調査しましたが、社会経済的地位についてさえ言及している論文は 20 件のみであることがわかりました。
しかし、それらの論文の大部分は、アノテーターの人口統計に関する情報を収集する以上のことには関与していません。
この研究不足を考慮して、NLP 研究者が運用できるクラスの定義を提供し、将来の言語技術に社会経済的クラスを含めることを主張します。

要約(オリジナル)

Since Labov’s (1964) foundational work on the social stratification of language, linguistics has dedicated concerted efforts towards understanding the relationships between socio-demographic factors and language production and perception. Despite the large body of evidence identifying significant relationships between socio-demographic factors and language production, relatively few of these factors have been investigated in the context of NLP technology. While age and gender are well covered, Labov’s initial target, socio-economic class, is largely absent. We survey the existing Natural Language Processing (NLP) literature and find that only 20 papers even mention socio-economic status. However, the majority of those papers do not engage with class beyond collecting information of annotator-demographics. Given this research lacuna, we provide a definition of class that can be operationalised by NLP researchers, and argue for including socio-economic class in future language technologies.

arxiv情報

著者 Amanda Cercas Curry,Zeerak Talat,Dirk Hovy
発行日 2024-03-06 17:35:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク