Multilingual large language models leak human stereotypes across language boundaries

要約

多言語の大規模言語モデルは、さまざまな言語にわたるテキストの理解と生成に習熟しているため、ますます人気が高まっています。
これまでの研究では、単一言語の大規模言語モデルにおける固定観念と偏見の存在は、人間から収集され、社会的偏見を反映するトレーニング データの性質に起因する可能性があることが示されています。
多言語言語モデルは、さまざまな言語からソースされたトレーニング データを使用しますが、単言語モデルと同じトレーニング手順を受けます。
これにより、1 つの社会的文脈に存在するステレオタイプがモデル内の言語間で漏洩するのかという疑問が生じます。
私たちの研究では、まず「ステレオタイプ漏洩」という用語を定義し、その測定のためのフレームワークを提案します。
このフレームワークを使用して、英語、ロシア語、中国語、ヒンディー語の 4 つの言語にわたってステレオタイプの連想がどのように漏れ出ているかを調査します。
ステレオタイプの漏洩を定量化するために、社会心理学からのアプローチを採用し、グループ特性の関連性を通じてステレオタイプを測定します。
mBERT、mT5、ChatGPT などの多言語大規模言語モデルに現れる人間の固定観念と固定観念の関連性を評価します。
私たちの調査結果では、すべての言語にわたって、ポジティブ、ネガティブ、および非極性の関連性が顕著に漏洩していることが示されています。
特に、多言語モデル内のヒンディー語は他の言語からの影響を最も受けやすいようですが、中国語は最も影響を受けにくいようです。
さらに、ChatGPT は他のモデルよりも人間のスコアとの一致が良好です。

要約(オリジナル)

Multilingual large language models have been increasingly popular for their proficiency in comprehending and generating text across various languages. Previous research has shown that the presence of stereotypes and biases in monolingual large language models can be attributed to the nature of their training data, which is collected from humans and reflects societal biases. Multilingual language models undergo the same training procedure as monolingual ones, albeit with training data sourced from various languages. This raises the question: do stereotypes present in one social context leak across languages within the model? In our work, we first define the term “stereotype leakage” and propose a framework for its measurement. With this framework, we investigate how stereotypical associations leak across four languages: English, Russian, Chinese, and Hindi. To quantify the stereotype leakage, we employ an approach from social psychology, measuring stereotypes via group-trait associations. We evaluate human stereotypes and stereotypical associations manifested in multilingual large language models such as mBERT, mT5, and ChatGPT. Our findings show a noticeable leakage of positive, negative, and non-polar associations across all languages. Notably, Hindi within multilingual models appears to be the most susceptible to influence from other languages, while Chinese is the least. Additionally, ChatGPT exhibits a better alignment with human scores than other models.

arxiv情報

著者 Yang Trista Cao,Anna Sotnikova,Jieyu Zhao,Linda X. Zou,Rachel Rudinger,Hal Daume III
発行日 2023-12-12 10:24:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク