On the Origins of Bias in NLP through the Lens of the Jim Code

要約

この論文では、現在の自然言語処理 (NLP) モデルのバイアスを、過去 500 年間にわたる人種差別、性差別、同性愛嫌悪にその起源を遡って追跡します。
私たちは批判的な人種理論、ジェンダー研究、データ倫理、デジタル人文科学の研究からの文献をレビューし、これらの社会科学の観点から NLP モデルにおけるバイアスの起源を要約します。
NLP パイプラインにおけるバイアスの原因が社会問題にどのように根ざしているかを示します。
最後に、NLP におけるバイアスと不公平を修正する唯一の方法は、そもそもそれらの原因となった社会問題に対処し、NLP モデルのバイアスを軽減する取り組みに社会科学と社会科学者を組み込むことであると主張します。
私たちは、NLP 研究コミュニティがそうするための実用的な推奨事項を提供します。

要約(オリジナル)

In this paper, we trace the biases in current natural language processing (NLP) models back to their origins in racism, sexism, and homophobia over the last 500 years. We review literature from critical race theory, gender studies, data ethics, and digital humanities studies, and summarize the origins of bias in NLP models from these social science perspective. We show how the causes of the biases in the NLP pipeline are rooted in social issues. Finally, we argue that the only way to fix the bias and unfairness in NLP is by addressing the social problems that caused them in the first place and by incorporating social sciences and social scientists in efforts to mitigate bias in NLP models. We provide actionable recommendations for the NLP research community to do so.

arxiv情報

著者 Fatma Elsafoury,Gavin Abercrombie
発行日 2023-05-16 08:37:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク