Global Voices, Local Biases: Socio-Cultural Prejudices across Languages

要約

人間の偏見は遍在していますが、均一ではありません。言語、文化、社会の境界を越えて格差が存在します。
最近の大量の文献が示唆しているように、人間のデータに基づいてトレーニングされた言語モデル (LM) は、これらの社会的バイアスの影響を反映し、しばしばその影響を増幅する可能性があります。
しかし、偏見に関する既存の研究の大部分は、西洋およびヨーロッパの言語に大きく偏っています。
この研究では、Word Embedding Association Test (WEAT) を 24 言語に拡張し、より広範な研究を可能にし、LM バイアスに関する興味深い発見をもたらしました。
さらに、各言語の文化的に関連した情報を使用してこのデータを強化し、地球規模でローカルなコンテキストを捉えます。
さらに、より広く蔓延している社会的偏見を包含するために、有害性、障害者差別などにわたる新たな偏見の側面を調査します。
さらに、インドの言語環境をさらに深く掘り下げ、インドで普及している 6 つの言語にわたって包括的な地域バイアス分析を実施しました。
最後に、埋め込み手法の広範な比較を通じて、これらの社会的偏見の重要性と新たな側面を強調し、より公平な言語モデルを追求するためにそれらに対処する必要性を強化します。
すべてのコード、データ、結果は、https://github.com/iamshnoo/weathub から入手できます。

要約(オリジナル)

Human biases are ubiquitous but not uniform: disparities exist across linguistic, cultural, and societal borders. As large amounts of recent literature suggest, language models (LMs) trained on human data can reflect and often amplify the effects of these social biases. However, the vast majority of existing studies on bias are heavily skewed towards Western and European languages. In this work, we scale the Word Embedding Association Test (WEAT) to 24 languages, enabling broader studies and yielding interesting findings about LM bias. We additionally enhance this data with culturally relevant information for each language, capturing local contexts on a global scale. Further, to encompass more widely prevalent societal biases, we examine new bias dimensions across toxicity, ableism, and more. Moreover, we delve deeper into the Indian linguistic landscape, conducting a comprehensive regional bias analysis across six prevalent Indian languages. Finally, we highlight the significance of these social biases and the new dimensions through an extensive comparison of embedding methods, reinforcing the need to address them in pursuit of more equitable language models. All code, data and results are available here: https://github.com/iamshnoo/weathub.

arxiv情報

著者 Anjishnu Mukherjee,Chahat Raj,Ziwei Zhu,Antonios Anastasopoulos
発行日 2023-10-26 17:07:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク