Stop! In the Name of Flaws: Disentangling Personal Names and Sociodemographic Attributes in NLP

要約

個人名は個人を区別すると同時に、特定の社会において重要な方法で個人を分類します。
このように、自然言語処理コミュニティはさまざまなタスクにおいて個人名を社会人口学的特徴と関連付けてきましたが、研究者はその際に確立された方法論上の問題に程度の差はあれ取り組んできました。
名前と社会人口学的特徴を使用する将来の研究を導くために、関連する研究の概要を提供します。まず、名前と命名に関する学際的な背景を示します。
次に、名前と社会人口学的属性の関連付けに固有の問題を調査し、妥当性の問題 (系統的誤り、構成概念の妥当性など) だけでなく、倫理的懸念 (危害、影響の差異、文化的無感受性など) もカバーします。
最後に、自然言語処理において名前​​や社会人口学的特性を扱う際の妥当性や倫理的な落とし穴を避けるための、指針となる質問と規範的な推奨事項を提供します。

要約(オリジナル)

Personal names simultaneously differentiate individuals and categorize them in ways that are important in a given society. While the natural language processing community has thus associated personal names with sociodemographic characteristics in a variety of tasks, researchers have engaged to varying degrees with the established methodological problems in doing so. To guide future work that uses names and sociodemographic characteristics, we provide an overview of relevant research: first, we present an interdisciplinary background on names and naming. We then survey the issues inherent to associating names with sociodemographic attributes, covering problems of validity (e.g., systematic error, construct validity), as well as ethical concerns (e.g., harms, differential impact, cultural insensitivity). Finally, we provide guiding questions along with normative recommendations to avoid validity and ethical pitfalls when dealing with names and sociodemographic characteristics in natural language processing.

arxiv情報

著者 Vagrant Gautam,Arjun Subramonian,Anne Lauscher,Os Keyes
発行日 2024-07-15 13:57:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.HC パーマリンク