Generative Language Models Exhibit Social Identity Biases

要約

大規模言語モデルの人気の高まりにより、これらのモデルが人間から学習する可能性のあるバイアスに関する懸念が生じています。
この研究では、社会科学で知られている基本的な社会的偏見である内集団の連帯感と外集団の敵意が、51 の大規模言語モデルに存在するかどうかを調査します。
ほぼすべての基礎的な言語モデルといくつかの微調整された命令モデルは、文を完成するように促されたとき(例:「私たちは…」)、明らかな内集団肯定的バイアスと外集団否定的バイアスを示すことがわかりました。
LLM が生成した文とインターネット上の人間が書いた文を比較すると、これらのモデルは人間のテキストと同等、あるいはそれ以上のバイアスを示していることがわかります。
これらのバイアスがどこから生じているのかを調査するために、米国の民主党と共和党の分裂という文脈での微調整中にモデルがさらされる内集団肯定的な文章または外集団否定的な文章の量を実験的に変化させました。
そうすることで、モデルは内集団の団結力が顕著に高まり、外集団の敵意がさらに大きくなりました。
さらに、微調整データから内集団肯定文または外集団否定文(またはその両方)を削除すると、内集団の連帯感と外集団の敵意の両方が大幅に減少し、偏ったトレーニングデータを削除することで偏りを軽減できることが示唆されました。
私たちの調査結果は、現代の言語モデルが基本的な社会的アイデンティティのバイアスを示しており、そのようなバイアスはトレーニングデータを厳選することで軽減できることを示唆しています。
私たちの結果は、バイアスの少ない大規模言語モデルを作成する上で実用的な意味を持ち、人間における潜在的なバイアス強化を防ぐためにユーザーと LLM の相互作用についてさらなる研究が必要であることをさらに強調しています。

要約(オリジナル)

The surge in popularity of large language models has given rise to concerns about biases that these models could learn from humans. In this study, we investigate whether ingroup solidarity and outgroup hostility, fundamental social biases known from social science, are present in 51 large language models. We find that almost all foundational language models and some instruction fine-tuned models exhibit clear ingroup-positive and outgroup-negative biases when prompted to complete sentences (e.g., ‘We are…’). A comparison of LLM-generated sentences with human-written sentences on the internet reveals that these models exhibit similar level, if not greater, levels of bias than human text. To investigate where these biases stem from, we experimentally varied the amount of ingroup-positive or outgroup-negative sentences the model was exposed to during fine-tuning in the context of the United States Democrat-Republican divide. Doing so resulted in the models exhibiting a marked increase in ingroup solidarity and an even greater increase in outgroup hostility. Furthermore, removing either ingroup-positive or outgroup-negative sentences (or both) from the fine-tuning data leads to a significant reduction in both ingroup solidarity and outgroup hostility, suggesting that biases can be reduced by removing biased training data. Our findings suggest that modern language models exhibit fundamental social identity biases and that such biases can be mitigated by curating training data. Our results have practical implications for creating less biased large-language models and further underscore the need for more research into user interactions with LLMs to prevent potential bias reinforcement in humans.

arxiv情報

著者 Tiancheng Hu,Yara Kyrychenko,Steve Rathje,Nigel Collier,Sander van der Linden,Jon Roozenbeek
発行日 2023-10-24 13:17:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク