Different Bias Under Different Criteria: Assessing Bias in LLMs with a Fact-Based Approach

要約

大規模言語モデル (LLM) は現実世界のバイアスを反映していることが多く、これらの影響を軽減してモデルにバイアスを適用しないようにする取り組みが行われます。
この目標を達成するには、偏りのない状態の明確な基準を定義する必要があり、これらの基準からの逸脱は偏っていると見なされます。
一部の研究では、偏りのない状態を、LLM からのバランスのとれた成果を目指して、多様な人口統計グループ全体で平等に扱うことと定義しています。
しかし、平等と多元主義の重要性についての視点の違いにより、普遍的な基準を確立することが困難になっています。
あるいは、他のアプローチでは、より一貫性のある客観的な評価のために事実に基づく基準を使用することが提案されていますが、これらの方法はまだ LLM バイアス評価に完全には適用されていません。
したがって、平等に基づくアプローチとは異なる視点を提供する、客観的な基準を備えた指標が必要です。
このニーズに動機付けられ、事実に基づいた基準と現実世界の統計を使用してバイアスを評価するための新しい指標を導入します。
この論文では、LLM 出力が現実世界の人口統計分布と密接に一致している場合、人間は LLM 出力をより肯定的に認識する傾向があることを示す人体調査を実施しました。
私たちが提案した指標を使用してさまざまな LLM を評価すると、モデルのバイアスが使用される基準に応じて変化することが明らかになり、多視点の評価の必要性が強調されます。

要約(オリジナル)

Large language models (LLMs) often reflect real-world biases, leading to efforts to mitigate these effects and make the models unbiased. Achieving this goal requires defining clear criteria for an unbiased state, with any deviation from these criteria considered biased. Some studies define an unbiased state as equal treatment across diverse demographic groups, aiming for balanced outputs from LLMs. However, differing perspectives on equality and the importance of pluralism make it challenging to establish a universal standard. Alternatively, other approaches propose using fact-based criteria for more consistent and objective evaluations, though these methods have not yet been fully applied to LLM bias assessments. Thus, there is a need for a metric with objective criteria that offers a distinct perspective from equality-based approaches. Motivated by this need, we introduce a novel metric to assess bias using fact-based criteria and real-world statistics. In this paper, we conducted a human survey demonstrating that humans tend to perceive LLM outputs more positively when they align closely with real-world demographic distributions. Evaluating various LLMs with our proposed metric reveals that model bias varies depending on the criteria used, highlighting the need for multi-perspective assessment.

arxiv情報

著者 Changgeon Ko,Jisu Shin,Hoyun Song,Jeongyeon Seo,Jong C. Park
発行日 2024-11-26 11:32:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク