要約
大規模な言語モデルはさまざまな社会的偏見をコード化していることが示されており、これは下流に害を及ぼすリスクを伴います。
これらのバイアスの影響は認識されていますが、バイアスを評価するためのこれまでの方法は、小さなデータセットに対する二項関連性テストに限定されており、言語モデル内の社会バイアスの性質について限定されたビューを提供していました。
この論文では、社会的偏見の言語モデルを調査するための独自のフレームワークを提案します。
私たちは、言語モデルの一般的な関連性を分析するため、また社会的カテゴリー、アイデンティティ、ステレオタイプの軸に沿って調査データセットを収集します。
この目的を達成するために、私たちは新しい混乱ベースの公平性スコアを活用します。
私たちは、既存の公平性コレクションの欠点と制限に対処する大規模なベンチマーク データセットを厳選し、さまざまな異なるアイデンティティやステレオタイプに拡張します。
私たちの方法論を以前の研究と比較すると、言語モデル内のバイアスが以前に認識されていたよりも微妙であることが実証されました。
最近の調査結果と一致して、モデルのバリアントが大きいほど、より高度な偏りを示すことがわかりました。
さらに、さまざまな宗教を表現するアイデンティティが、すべてのモデルにわたって最も顕著に異なる扱いにどのようにつながるかを明らかにします。
要約(オリジナル)
Large language models have been shown to encode a variety of social biases, which carries the risk of downstream harms. While the impact of these biases has been recognized, prior methods for bias evaluation have been limited to binary association tests on small datasets, offering a constrained view of the nature of societal biases within language models. In this paper, we propose an original framework for probing language models for societal biases. We collect a probing dataset to analyze language models’ general associations, as well as along the axes of societal categories, identities, and stereotypes. To this end, we leverage a novel perplexity-based fairness score. We curate a large-scale benchmarking dataset addressing drawbacks and limitations of existing fairness collections, expanding to a variety of different identities and stereotypes. When comparing our methodology with prior work, we demonstrate that biases within language models are more nuanced than previously acknowledged. In agreement with recent findings, we find that larger model variants exhibit a higher degree of bias. Moreover, we expose how identities expressing different religions lead to the most pronounced disparate treatments across all models.
arxiv情報
著者 | Marta Marchiori Manerba,Karolina Stańczak,Riccardo Guidotti,Isabelle Augenstein |
発行日 | 2024-02-19 16:30:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google