要約
大規模言語モデル (LLM) の機能が向上するにつれて、アンケートや世論調査など、主観的なラベルが必要な現実世界のタスクにおいて、人間の代理として LLM を使用できる可能性についての期待が高まっています。
主観的なタスクにおいて人間の代理として LLM を採用する際の障壁の 1 つとして広く挙げられているのは、プロンプトの言葉遣いに対する LLM の敏感さです。しかし興味深いことに、人間は応答バイアスの形で指示の変更に対しても敏感さを示します。
私たちは、LLM が人間の反応バイアスを反映している場合、それをどの程度反映しているかを調査します。
我々は、「プロンプト」の文言の変化によって引き起こされる人間の反応バイアスについて、社会心理学の文献で広く調査されている調査デザインに注目します。
これらの研究に基づいて、LLM が調査アンケートで人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計します。
9 つのモデルを総合的に評価したところ、一般的なオープン LLM や商用 LLM は、特に RLHF が適用されたモデルでは一般的に人間のような動作を反映できていないことがわかりました。
さらに、モデルが人間と同じ方向に大きな変化を示したとしても、人間では大きな変化を引き起こさない摂動にはモデルが敏感であることがわかります。
これらの結果は、人間の代理として LLM を使用することの落とし穴を浮き彫りにし、モデルの動作をより詳細に特性評価する必要性を強調しています。
コード、データセット、および収集されたサンプルは、https://github.com/lindiatjuatja/BiasMonkey で入手できます。
要約(オリジナル)
As large language models (LLMs) become more capable, there is growing excitement about the possibility of using LLMs as proxies for humans in real-world tasks where subjective labels are desired, such as in surveys and opinion polling. One widely-cited barrier to the adoption of LLMs as proxies for humans in subjective tasks is their sensitivity to prompt wording – but interestingly, humans also display sensitivities to instruction changes in the form of response biases. We investigate the extent to which LLMs reflect human response biases, if at all. We look to survey design, where human response biases caused by changes in the wordings of ‘prompts’ have been extensively explored in social psychology literature. Drawing from these works, we design a dataset and framework to evaluate whether LLMs exhibit human-like response biases in survey questionnaires. Our comprehensive evaluation of nine models shows that popular open and commercial LLMs generally fail to reflect human-like behavior, particularly in models that have undergone RLHF. Furthermore, even if a model shows a significant change in the same direction as humans, we find that they are sensitive to perturbations that do not elicit significant changes in humans. These results highlight the pitfalls of using LLMs as human proxies, and underscore the need for finer-grained characterizations of model behavior. Our code, dataset, and collected samples are available at https://github.com/lindiatjuatja/BiasMonkey
arxiv情報
著者 | Lindia Tjuatja,Valerie Chen,Sherry Tongshuang Wu,Ameet Talwalkar,Graham Neubig |
発行日 | 2024-02-06 04:16:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google