LLMs Reproduce Stereotypes of Sexual and Gender Minorities

要約

多くの研究により、NLP システムにおける重大なジェンダーバイアスが判明しています。
この研究のほとんどは、ジェンダーについて二元的で本質主義的な見方をしています。つまり、ジェンダーのバリエーションを「男性」と「女性」というカテゴリーに限定し、ジェンダーとセックスを混同し、さまざまな性的アイデンティティを無視しています。
しかし、ジェンダーとセクシュアリティはスペクトル上に存在するため、この論文では、二値カテゴリーを超えた性的および性的少数者に対する大規模言語モデル (LLM) のバイアスを研究します。
広く使用されている心理学的フレームワークであるステレオタイプ内容モデルに基づいて研究を進め、社会的認識に関する英語の調査質問が、人間からの場合と同様に、LLMからも性的および性的マイノリティに対するより否定的なステレオタイプを引き出すことを実証しました。
次に、このフレームワークをより現実的なユースケースであるテキスト生成に拡張します。
私たちの分析によると、LLM はこの状況で性的および性的マイノリティーのステレオタイプ的な表現を生成しており、広く推奨されている使用例であるクリエイティブライティングにおける表現上の危害を増幅する能力について懸念が生じています。

要約(オリジナル)

A large body of research has found substantial gender bias in NLP systems. Most of this research takes a binary, essentialist view of gender: limiting its variation to the categories _men_ and _women_, conflating gender with sex, and ignoring different sexual identities. But gender and sexuality exist on a spectrum, so in this paper we study the biases of large language models (LLMs) towards sexual and gender minorities beyond binary categories. Grounding our study in a widely used psychological framework — the Stereotype Content Model — we demonstrate that English-language survey questions about social perceptions elicit more negative stereotypes of sexual and gender minorities from LLMs, just as they do from humans. We then extend this framework to a more realistic use case: text generation. Our analysis shows that LLMs generate stereotyped representations of sexual and gender minorities in this setting, raising concerns about their capacity to amplify representational harms in creative writing, a widely promoted use case.

arxiv情報

著者 Ruby Ostrow,Adam Lopez
発行日 2025-01-10 12:46:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク