Robustness and Confounders in the Demographic Alignment of LLMs with Human Perceptions of Offensiveness

要約

大規模言語モデル (LLM) は人口統計上の偏りを示すことが知られていますが、複数のデータセットにわたってこれらの偏りを体系的に評価したり、交絡因子を説明した研究はほとんどありません。
この研究では、約 220,000 個のアノテーションで構成される 5 つの不快な言語データセットにおける人間のアノテーションと LLM の整合性を調べます。
私たちの調査結果は、人口統計的特徴、特に人種がアラインメントに影響を与える一方で、これらの効果はデータセット間で一貫性がなく、多くの場合他の要因と絡み合っていることを明らかにしています。
文書の難しさ、アノテーターの感度、グループ内の同意などの交絡因子は、人口統計的特性だけよりも、調整パターンの変動の大きな原因となります。
具体的には、アノテーターの感度とグループの一致度が高くなるほど整合性が高まりますが、文書の難易度が高くなると整合性が低下します。
私たちの結果は、LLM における人口統計上の偏りの堅牢な尺度を開発する上で、マルチデータセット分析と交絡因子を意識した方法論の重要性を強調しています。

要約(オリジナル)

Large language models (LLMs) are known to exhibit demographic biases, yet few studies systematically evaluate these biases across multiple datasets or account for confounding factors. In this work, we examine LLM alignment with human annotations in five offensive language datasets, comprising approximately 220K annotations. Our findings reveal that while demographic traits, particularly race, influence alignment, these effects are inconsistent across datasets and often entangled with other factors. Confounders — such as document difficulty, annotator sensitivity, and within-group agreement — account for more variation in alignment patterns than demographic traits alone. Specifically, alignment increases with higher annotator sensitivity and group agreement, while greater document difficulty corresponds to reduced alignment. Our results underscore the importance of multi-dataset analyses and confounder-aware methodologies in developing robust measures of demographic bias in LLMs.

arxiv情報

著者 Shayan Alipour,Indira Sen,Mattia Samory,Tanushree Mitra
発行日 2024-11-22 16:22:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク