Subtle Biases Need Subtler Measures: Dual Metrics for Evaluating Representative and Affinity Bias in Large Language Models

要約

大規模言語モデル(Large Language Models: LLMs)の研究では、特定の社会的ナラティブに対するモデルの出力に大きな影響を与える可能性のある微妙なバイアスがしばしば無視されてきた。本研究では、LLMが特定のアイデンティティグループの経験を反映した出力を生成する傾向を示す代表バイアスと、特定のナラティブや視点に対するモデルの評価的嗜好を反映する親和バイアスの2つのバイアスを取り上げる。また、これらの微妙なバイアスを検出するためにカスタマイズされたルーブリックを用いて設計された、短編小説の執筆や詩の作文のようなオープンエンドのタスクのコレクションであるCreativity-Oriented Generation Suite (CoGS)を紹介する。われわれの分析は、著名なLLMに顕著な代表的バイアスを発見し、白人であること、ストレートであること、男性であることに関連するアイデンティティを選好していることを明らかにした。さらに、親和性のバイアスを調査した結果、「バイアスの指紋」のような、各モデルにおける特徴的な評価パターンが明らかになった。この傾向は人間の評価者にも見られ、人間と機械のバイアス認識の間の複雑な相互作用を浮き彫りにしている。

要約(オリジナル)

Research on Large Language Models (LLMs) has often neglected subtle biases that, although less apparent, can significantly influence the models’ outputs toward particular social narratives. This study addresses two such biases within LLMs: representative bias, which denotes a tendency of LLMs to generate outputs that mirror the experiences of certain identity groups, and affinity bias, reflecting the models’ evaluative preferences for specific narratives or viewpoints. We introduce two novel metrics to measure these biases: the Representative Bias Score (RBS) and the Affinity Bias Score (ABS), and present the Creativity-Oriented Generation Suite (CoGS), a collection of open-ended tasks such as short story writing and poetry composition, designed with customized rubrics to detect these subtle biases. Our analysis uncovers marked representative biases in prominent LLMs, with a preference for identities associated with being white, straight, and men. Furthermore, our investigation of affinity bias reveals distinctive evaluative patterns within each model, akin to `bias fingerprints’. This trend is also seen in human evaluators, highlighting a complex interplay between human and machine bias perceptions.

arxiv情報

著者 Abhishek Kumar,Sarfaroz Yunusov,Ali Emami
発行日 2024-06-03 16:43:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク