Do LLMs exhibit human-like response biases? A case study in survey design

要約

大規模言語モデル (LLM) の機能が向上するにつれて、アンケートや世論調査など、主観的なラベルが必要な現実世界のタスクにおいて、人間の代理として LLM を使用できる可能性についての期待が高まっています。
LLM の導入に対する障壁としてよく挙げられるのは、プロンプトの文言に対する LLM の敏感さです。しかし興味深いことに、人間は応答バイアスという形での指示の変更にも敏感です。
そのため、LLM が人間の意見に近似するために使用される場合、LLM が人間の反応バイアスを反映している場合、それをどの程度反映するかを調査する必要があると私たちは主張します。
この研究では、ケーススタディとして調査デザインを使用します。そこでは、「プロンプト」の文言の並べ替えによって引き起こされる人間の反応バイアスが広範囲に研究されています。
社会心理学におけるこれまでの研究に基づいて、私たちはデータセットを設計し、LLMが調査アンケートで人間のような反応バイアスを示すかどうかを評価するためのフレームワークを提案します。
9 つのモデルを総合的に評価したところ、一般的なオープンおよび商用 LLM は一般的に人間のような動作を反映できていないことがわかりました。
これらの不一致は、命令が微調整されたモデルでより顕著になる傾向があります。
さらに、モデルが人間と同じ方向の重大な変化を示したとしても、人間に重大な変化を引き起こすことを意図していない摂動も同様の変化を引き起こす可能性があることがわかり、そのような結果は部分的に他の要因による可能性があることを示唆しています。
偽りの相関関係。
これらの結果は、アノテーション パイプラインの一部で人間の代わりに LLM を使用することの潜在的な落とし穴を浮き彫りにし、モデルの動作のより詳細な特性評価の重要性をさらに強調します。
コード、データセット、および収集されたサンプルは、https://github.com/lindiatjuatja/BiasMonkey で入手できます。

要約(オリジナル)

As large language models (LLMs) become more capable, there is growing excitement about the possibility of using LLMs as proxies for humans in real-world tasks where subjective labels are desired, such as in surveys and opinion polling. One widely-cited barrier to the adoption of LLMs is their sensitivity to prompt wording — but interestingly, humans also display sensitivities to instruction changes in the form of response biases. As such, we argue that if LLMs are going to be used to approximate human opinions, it is necessary to investigate the extent to which LLMs also reflect human response biases, if at all. In this work, we use survey design as a case study, where human response biases caused by permutations in wordings of “prompts” have been extensively studied. Drawing from prior work in social psychology, we design a dataset and propose a framework to evaluate whether LLMs exhibit human-like response biases in survey questionnaires. Our comprehensive evaluation of nine models shows that popular open and commercial LLMs generally fail to reflect human-like behavior. These inconsistencies tend to be more prominent in models that have been instruction fine-tuned. Furthermore, even if a model shows a significant change in the same direction as humans, we find that perturbations that are not meant to elicit significant changes in humans may also result in a similar change, suggesting that such a result could be partially due to other spurious correlations. These results highlight the potential pitfalls of using LLMs to substitute humans in parts of the annotation pipeline, and further underscore the importance of finer-grained characterizations of model behavior. Our code, dataset, and collected samples are available at https://github.com/lindiatjuatja/BiasMonkey

arxiv情報

著者 Lindia Tjuatja,Valerie Chen,Sherry Tongshuang Wu,Ameet Talwalkar,Graham Neubig
発行日 2023-11-07 15:40:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク