要約
大規模言語モデル(LLM)の能力が向上するにつれ、アンケートや世論調査のような主観的なラベル付けが必要な実世界のタスクにおいて、人間の代理としてLLMを使用する可能性に期待が高まっている。LLMを採用する際の障壁の1つとして、プロンプトの文言に対する感度が挙げられるが、興味深いことに、人間も回答バイアスという形で指示の変化に対する感度を示す。そのため、LLMを人間の意見の近似に使用するのであれば、LLMが人間の回答バイアスをどの程度反映しているかを調査する必要がある、と我々は主張する。本研究では、「プロンプト」の文言の並べ替えによって生じる人間の回答バイアスが広く研究されている調査デザインをケーススタディとして用いる。社会心理学の先行研究から、我々はデータセットを設計し、LLMがアンケート調査において人間のような回答バイアスを示すかどうかを評価する枠組みを提案する。9つのモデルを総合的に評価した結果、一般的なオープンLLMや商用LLMは、概して人間らしい行動を反映していないことがわかった。このような矛盾は、細かく調整されたモデルでより顕著になる傾向がある。さらに、あるモデルが人間と同じ方向に有意な変化を示したとしても、人間には有意な変化を誘発するようには意図されていない摂動も、同様の変化をもたらす可能性があることがわかった。これらの結果は、アノテーションパイプラインの一部で人間の代わりにLLMを使用することの潜在的な落とし穴を浮き彫りにし、モデルの挙動をより細かく特徴付けることの重要性をさらに強調している。我々のコード、データセット、収集したサンプルは、https://github.com/lindiatjuatja/BiasMonkey。
要約(オリジナル)
As large language models (LLMs) become more capable, there is growing excitement about the possibility of using LLMs as proxies for humans in real-world tasks where subjective labels are desired, such as in surveys and opinion polling. One widely-cited barrier to the adoption of LLMs is their sensitivity to prompt wording – but interestingly, humans also display sensitivities to instruction changes in the form of response biases. As such, we argue that if LLMs are going to be used to approximate human opinions, it is necessary to investigate the extent to which LLMs also reflect human response biases, if at all. In this work, we use survey design as a case study, where human response biases caused by permutations in wordings of ‘prompts’ have been extensively studied. Drawing from prior work in social psychology, we design a dataset and propose a framework to evaluate whether LLMs exhibit human-like response biases in survey questionnaires. Our comprehensive evaluation of nine models shows that popular open and commercial LLMs generally fail to reflect human-like behavior. These inconsistencies tend to be more prominent in models that have been instruction fine-tuned. Furthermore, even if a model shows a significant change in the same direction as humans, we find that perturbations that are not meant to elicit significant changes in humans may also result in a similar change. These results highlight the potential pitfalls of using LLMs to substitute humans in parts of the annotation pipeline, and further underscore the importance of finer-grained characterizations of model behavior. Our code, dataset, and collected samples are available at https://github.com/lindiatjuatja/BiasMonkey
arxiv情報
著者 | Lindia Tjuatja,Valerie Chen,Sherry Tongshuang Wu,Ameet Talwalkar,Graham Neubig |
発行日 | 2024-02-05 15:12:06+00:00 |
arxivサイト | arxiv_id(pdf) |