Subtle Biases Need Subtler Measures: Dual Metrics for Evaluating Representative and Affinity Bias in Large Language Models

要約

大規模言語モデル (LLM) の研究では、あまり明らかではないものの、特定の社会的物語に対するモデルの出力に大きな影響を与える可能性がある微妙なバイアスが無視されることがよくあります。
この研究は、LLM 内のそのような 2 つのバイアスに対処します。\textit{代表バイアス}は、特定のアイデンティティ グループの経験を反映する出力を生成する LLM の傾向を示します。もう 1 つは、特定のアイデンティティ グループに対するモデルの評価選好を反映する \textit{親和性バイアス}です。
物語とか視点とか。
これらのバイアスを測定するための 2 つの新しい指標、代表バイアス スコア (RBS) と親和性バイアス スコア (ABS) を導入し、短編小説の執筆などのオープンエンドのタスクを集めた創造性指向生成スイート (CoGS) を紹介します。
そして、これらの微妙な偏見を検出するためにカスタマイズされたルーブリックを使用して設計された詩の構成。
私たちの分析により、白人、異性愛者、男性であることに関連するアイデンティティを好むと​​いう、著名なLLMにおける顕著な代表的な偏見が明らかになりました。
さらに、親和性バイアスの調査により、「バイアスの指紋」に似た、各モデル内の独特の評価パターンが明らかになりました。
この傾向は人間の評価者にも見られ、人間と機械のバイアス認識間の複雑な相互作用が浮き彫りになっています。

要約(オリジナル)

Research on Large Language Models (LLMs) has often neglected subtle biases that, although less apparent, can significantly influence the models’ outputs toward particular social narratives. This study addresses two such biases within LLMs: \textit{representative bias}, which denotes a tendency of LLMs to generate outputs that mirror the experiences of certain identity groups, and \textit{affinity bias}, reflecting the models’ evaluative preferences for specific narratives or viewpoints. We introduce two novel metrics to measure these biases: the Representative Bias Score (RBS) and the Affinity Bias Score (ABS), and present the Creativity-Oriented Generation Suite (CoGS), a collection of open-ended tasks such as short story writing and poetry composition, designed with customized rubrics to detect these subtle biases. Our analysis uncovers marked representative biases in prominent LLMs, with a preference for identities associated with being white, straight, and men. Furthermore, our investigation of affinity bias reveals distinctive evaluative patterns within each model, akin to `bias fingerprints’. This trend is also seen in human evaluators, highlighting a complex interplay between human and machine bias perceptions.

arxiv情報

著者 Abhishek Kumar,Sarfaroz Yunusov,Ali Emami
発行日 2024-05-23 13:35:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク