Fairness in Language Models Beyond English: Gaps and Challenges

要約

言語モデルがますますユビキタスになるにつれて、多様な人口統計学的グループと要因の不公平な扱いに対処することが不可欠になりました.
公平性の害の評価と軽減に関するほとんどの研究は英語に集中しており、多言語モデルや英語以外の言語は比較的ほとんど注目されていません。
この論文は、多言語および非英語の文脈における公平性の調査を提示し、現在の研究の欠点と、英語用に設計された方法が直面する困難を強調しています。
世界中の多数の多様な文化と言語により、公平性データセットを構築するという点で包括的なカバレッジを達成することは不可能であると私たちは主張します.
したがって、バイアスの測定と軽減は、特定の次元とタイプのバイアスに限定的に焦点を当てている現在のデータセット主導の慣行を超えて進化する必要があり、したがって、言語や文化を超えて拡張することは不可能です。

要約(オリジナル)

With language models becoming increasingly ubiquitous, it has become essential to address their inequitable treatment of diverse demographic groups and factors. Most research on evaluating and mitigating fairness harms has been concentrated on English, while multilingual models and non-English languages have received comparatively little attention. This paper presents a survey of fairness in multilingual and non-English contexts, highlighting the shortcomings of current research and the difficulties faced by methods designed for English. We contend that the multitude of diverse cultures and languages across the world makes it infeasible to achieve comprehensive coverage in terms of constructing fairness datasets. Thus, the measurement and mitigation of biases must evolve beyond the current dataset-driven practices that are narrowly focused on specific dimensions and types of biases and, therefore, impossible to scale across languages and cultures.

arxiv情報

著者 Krithika Ramesh,Sunayana Sitaram,Monojit Choudhury
発行日 2023-02-28 08:08:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク