Social Bias Evaluation for Large Language Models Requires Prompt Variations

要約

警告この論文にはステレオタイプとバイアスの例が含まれています。大規模言語モデル(LLM)はかなりの社会的バイアスを示し、様々な研究がこれらのバイアスを正確に評価し緩和しようとしている。これまでの研究では、社会的バイアスの程度を評価・軽減するために、下流タスクをプロンプトとして用いている。LLMの出力はプロンプトに大きく依存するが、バイアスを評価・緩和する先行研究は、多くの場合、限られた種類のプロンプトに依存している。本論文では、LLMのタスクパフォーマンスと社会的バイアスを分析することにより、プロンプトのバリエーション(タスク指示とプロンプト、少数例、デビアスプロンプト)を変化させたときのLLMの感度を調べる。その結果、タスクパフォーマンスと社会的バイアスのモデルを比較すると、LLMの順位が変動するほど、LLMはプロンプトに対して高い感度を持つことが明らかになった。さらに、LLMはプロンプトによるパフォーマンスと社会的バイアスのトレードオフがあることを示す。プロンプト設定によるバイアスが少ないと、パフォーマンスが低下する可能性がある。さらに、インスタンスの曖昧さが、高度なLLMにおけるプロンプトに対する感受性の原因の1つであり、様々なアウトプットをもたらす。本研究のように多様なプロンプトを使用し、プロンプトがLLMの社会的バイアスに与える影響を比較することを推奨する。

要約(オリジナル)

Warning: This paper contains examples of stereotypes and biases. Large Language Models (LLMs) exhibit considerable social biases, and various studies have tried to evaluate and mitigate these biases accurately. Previous studies use downstream tasks as prompts to examine the degree of social biases for evaluation and mitigation. While LLMs’ output highly depends on prompts, previous studies evaluating and mitigating bias have often relied on a limited variety of prompts. In this paper, we investigate the sensitivity of LLMs when changing prompt variations (task instruction and prompt, few-shot examples, debias-prompt) by analyzing task performance and social bias of LLMs. Our experimental results reveal that LLMs are highly sensitive to prompts to the extent that the ranking of LLMs fluctuates when comparing models for task performance and social bias. Additionally, we show that LLMs have tradeoffs between performance and social bias caused by the prompts. Less bias from prompt setting may result in reduced performance. Moreover, the ambiguity of instances is one of the reasons for this sensitivity to prompts in advanced LLMs, leading to various outputs. We recommend using diverse prompts, as in this study, to compare the effects of prompts on social bias in LLMs.

arxiv情報

著者 Rem Hida,Masahiro Kaneko,Naoaki Okazaki
発行日 2024-07-03 14:12:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク