要約
人間の判断は本質的に主観的であり、性別や民族などの個人的な特性によって積極的に影響を受けます。
大規模な言語モデル(LLM)は、多様なコンテキスト全体で人間の反応をシミュレートするために広く使用されていますが、主観的なタスクの人口統計上の違いを説明する能力は不明のままです。
この研究では、Popquornデータセットを活用して、2つの主観的な判断タスクの人口統計上の違いを理解する能力について、9つの一般的なLLMを評価します。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジア人や黒人の参加者よりも白人の参加者のラベルとより密接に整合しているが、女性を支持する小さな性別バイアスのみが礼儀正しさの課題に現れることがわかります。
さらに、社会人口学的プロンプトは一貫して改善せず、場合によっては、特定のサブポピュレーションから言語を知覚するLLMSの能力を悪化させます。
これらの調査結果は、主観的な判断タスクを実行する際のLLMの潜在的な人口統計学的バイアスを強調し、多元的な整合を達成するための戦略として社会人口統計促進の限界を強調しています。
コードとデータは、https://github.com/jiaxin-pei/llm-as-subjective-judgeで入手できます。
要約(オリジナル)
Human judgments are inherently subjective and are actively affected by personal traits such as gender and ethnicity. While Large Language Models (LLMs) are widely used to simulate human responses across diverse contexts, their ability to account for demographic differences in subjective tasks remains uncertain. In this study, leveraging the POPQUORN dataset, we evaluate nine popular LLMs on their ability to understand demographic differences in two subjective judgment tasks: politeness and offensiveness. We find that in zero-shot settings, most models’ predictions for both tasks align more closely with labels from White participants than those from Asian or Black participants, while only a minor gender bias favoring women appears in the politeness task. Furthermore, sociodemographic prompting does not consistently improve and, in some cases, worsens LLMs’ ability to perceive language from specific sub-populations. These findings highlight potential demographic biases in LLMs when performing subjective judgment tasks and underscore the limitations of sociodemographic prompting as a strategy to achieve pluralistic alignment. Code and data are available at: https://github.com/Jiaxin-Pei/LLM-as-Subjective-Judge.
arxiv情報
著者 | Huaman Sun,Jiaxin Pei,Minje Choi,David Jurgens |
発行日 | 2025-02-17 17:46:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google