Multilingual large language models leak human stereotypes across language boundaries

要約

多言語の大規模言語モデルは、複数の言語にまたがるテキストの処理と生成に習熟しているため、注目を集めています。
単言語モデルと同様に、多言語モデルはトレーニング データに存在する固定観念やその他の社会的偏見を認識する可能性があります。
この論文では、ステレオタイプ漏洩と呼ばれる現象を研究します。これは、モデルを多言語でトレーニングすると、ある言語で表現されたステレオタイプが別の言語のモデルの動作に現れる可能性があることを指します。
私たちは、ステレオタイプ漏洩の測定フレームワークを提案し、英語、ロシア語、中国語、ヒンディー語全体で、また GPT-3.5、mT5、および mBERT を使用してその効果を調査します。
私たちの調査結果では、すべての言語にわたって、ポジティブ、ネガティブ、および非極性の関連性が顕著に漏洩していることが示されています。
これらのモデルのうち、GPT-3.5 が最もステレオタイプのリークを示し、ヒンディー語がリークの影響を最も受けやすいことがわかりました。
警告: この文書には、本質的に不快感を与える可能性のあるモデル出力が含まれています。

要約(オリジナル)

Multilingual large language models have gained prominence for their proficiency in processing and generating text across languages. Like their monolingual counterparts, multilingual models are likely to pick up on stereotypes and other social biases present in their training data. In this paper, we study a phenomenon we term stereotype leakage, which refers to how training a model multilingually may lead to stereotypes expressed in one language showing up in the models’ behaviour in another. We propose a measurement framework for stereotype leakage and investigate its effect across English, Russian, Chinese, and Hindi and with GPT-3.5, mT5, and mBERT. Our findings show a noticeable leakage of positive, negative, and non-polar associations across all languages. We find that of these models, GPT-3.5 exhibits the most stereotype leakage, and Hindi is the most susceptible to leakage effects. WARNING: This paper contains model outputs which could be offensive in nature.

arxiv情報

著者 Yang Trista Cao,Anna Sotnikova,Jieyu Zhao,Linda X. Zou,Rachel Rudinger,Hal Daume III
発行日 2024-11-19 09:33:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク