Evaluating Biased Attitude Associations of Language Models in an Intersectional Context

要約

言語モデルは、心理学で文書化されている暗黙のバイアスを埋め込んだ大規模なコーパスでトレーニングされます。
社会的集団の価性の関連付け (快さ/不快さ) は、社会的認知における集団や概念に対する偏った態度を決定します。
この確立された文献に基づいて、交差するコンテキストを提供する文テンプレートを使用して、英語モデルで社会的グループがどのように価数付けされるかを定量化します。
私たちは、年齢、教育、性別、身長、知能、読み書き能力、人種、宗教、性別、性的指向、社会階級、体重に関連するバイアスを研究します。
我々は、言語モデルの文脈化された単語埋め込みを通じて価数部分空間を捕捉するための概念投影アプローチを提示します。
投影ベースのアプローチをバイアスを定量化する関連性テストの埋め込みに適応させると、言語モデルが言語の性自認、社会階級、性的指向のシグナルに対して最も偏った態度を示すことがわかりました。
私たちが研究した最大規模でよりパフォーマンスの高いモデルは、社会文化的データに埋め込まれたバイアスを効果的に捉えているため、よりバイアスがかかっていることもわかりました。
本質的な価数評価タスクを過剰に実行することにより、バイアス評価方法を検証します。
このアプローチにより、歴史的なバイアスを永続させる言語モデルの出力やアプリケーションに現れることが知られている複雑な交差バイアスを測定できるようになります。
さらに、私たちのアプローチは、トランスジェンダーや同性愛者など、言語で過小評価されているグループの関連性を研究するため、正義の設計に貢献します。

要約(オリジナル)

Language models are trained on large-scale corpora that embed implicit biases documented in psychology. Valence associations (pleasantness/unpleasantness) of social groups determine the biased attitudes towards groups and concepts in social cognition. Building on this established literature, we quantify how social groups are valenced in English language models using a sentence template that provides an intersectional context. We study biases related to age, education, gender, height, intelligence, literacy, race, religion, sex, sexual orientation, social class, and weight. We present a concept projection approach to capture the valence subspace through contextualized word embeddings of language models. Adapting the projection-based approach to embedding association tests that quantify bias, we find that language models exhibit the most biased attitudes against gender identity, social class, and sexual orientation signals in language. We find that the largest and better-performing model that we study is also more biased as it effectively captures bias embedded in sociocultural data. We validate the bias evaluation method by overperforming on an intrinsic valence evaluation task. The approach enables us to measure complex intersectional biases as they are known to manifest in the outputs and applications of language models that perpetuate historical biases. Moreover, our approach contributes to design justice as it studies the associations of groups underrepresented in language such as transgender and homosexual individuals.

arxiv情報

著者 Shiva Omrani Sabbaghi,Robert Wolfe,Aylin Caliskan
発行日 2023-07-07 03:01:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク