Diversity and Language Technology: How Techno-Linguistic Bias Can Cause Epistemic Injustice

要約

AI ベースの言語テクノロジー (大規模な言語モデル、機械翻訳システム、多言語辞書、コーパス) は、現在、世界で最も広く話されている言語、および/または経済的および政治的に最もよくサポートされている言語の 2 ~ 3 パーセントに限られていることはよく知られています。

これに応えて、最近の研究活動では、AI テクノロジーの適用範囲を「サービスが十分に受けられていない言語」にまで拡大しようとしています。この論文では、これらの試みの多くが、特定の言語に対する固定的な表現優先に固執する欠陥のあるソリューションを生み出していることを示します。
私たちはこれを技術言語バイアスと呼んでいます。
技術言語バイアスは、表現される言語ではなくテクノロジーの設計に関係するため、確立された現象である言語バイアスとは異なります。
この論文を通して示しているように、技術言語的バイアスにより、支配的な勢力の言語と文化の一部である概念のみを表現できるシステムが生じ、他のコミュニティの概念を正しく表現できない可能性があります。
私たちは、この問題の根本には、言語、そして最終的には言語を話すコミュニティが体現するより深い違いを正当に評価していない、多様性についての単純化した理解を適用する技術開発者コミュニティの体系的な傾向があると主張します。
私たちは、認識論的不正義の概念に基づいて、私たちが特定した偏見がより広範な社会政治的影響をもたらすことを指摘し、それが多様性の貴重な側面の無視だけでなく、人々のニーズや多様な世界観の過小評価にどのようにつながり得るかを示します。
疎外された言語コミュニティ。

要約(オリジナル)

It is well known that AI-based language technology — large language models, machine translation systems, multilingual dictionaries, and corpora — is currently limited to 2 to 3 percent of the world’s most widely spoken and/or financially and politically best supported languages. In response, recent research efforts have sought to extend the reach of AI technology to “underserved languages.” In this paper, we show that many of these attempts produce flawed solutions that adhere to a hard-wired representational preference for certain languages, which we call techno-linguistic bias. Techno-linguistic bias is distinct from the well-established phenomenon of linguistic bias as it does not concern the languages represented but rather the design of the technologies. As we show through the paper, techno-linguistic bias can result in systems that can only express concepts that are part of the language and culture of dominant powers, unable to correctly represent concepts from other communities. We argue that at the root of this problem lies a systematic tendency of technology developer communities to apply a simplistic understanding of diversity which does not do justice to the more profound differences that languages, and ultimately the communities that speak them, embody. Drawing on the concept of epistemic injustice, we point to the broader sociopolitical consequences of the bias we identify and show how it can lead not only to a disregard for valuable aspects of diversity but also to an under-representation of the needs and diverse worldviews of marginalized language communities.

arxiv情報

著者 Paula Helm,Gábor Bella,Gertraud Koch,Fausto Giunchiglia
発行日 2023-07-25 16:08:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク