Blind Men and the Elephant: Diverse Perspectives on Gender Stereotypes in Benchmark Datasets

要約

言語モデルにおけるジェンダー・ステレオタイプ・バイアスを正確に測定するという多面的な課題は、より広範で目に見えない実体の異なるセグメントを識別することに似ている。この短い論文では、内在的アプローチと外在的アプローチの間に相関性がないことを示す先行研究を基に、言語モデルの内在的バイアス緩和と測定ストラテジーに主に焦点を当てます。本論文では、内発的な測定についてより深く掘り下げ、矛盾を特定し、これらのベンチマークがジェンダー・ステレオタイプの異なる側面を反映している可能性を示唆する。我々の方法論では、データセット間のデータ分布を分析し、社会心理学から得たジェンダー・ステレオタイプの構成要素を統合する。2つのデータセットの分布を調整することで、結果のより良い整合を達成する。我々の発見は、言語モデルにおけるジェンダー・ステレオタイプの複雑さを強調し、バイアスを検出し低減するためのより洗練された技術を開発するための新たな方向を指し示している。

要約(オリジナル)

The multifaceted challenge of accurately measuring gender stereotypical bias in language models is akin to discerning different segments of a broader, unseen entity. This short paper primarily focuses on intrinsic bias mitigation and measurement strategies for language models, building on prior research that demonstrates a lack of correlation between intrinsic and extrinsic approaches. We delve deeper into intrinsic measurements, identifying inconsistencies and suggesting that these benchmarks may reflect different facets of gender stereotype. Our methodology involves analyzing data distributions across datasets and integrating gender stereotype components informed by social psychology. By adjusting the distribution of two datasets, we achieve a better alignment of outcomes. Our findings underscore the complexity of gender stereotyping in language models and point to new directions for developing more refined techniques to detect and reduce bias.

arxiv情報

著者 Mahdi Zakizadeh,Mohammad Taher Pilehvar
発行日 2025-01-02 09:40:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク