要約
私たちは、社会科学研究における人間の参加者をシミュレートするために大規模言語モデル (LLM) を使用できるかどうかをテストします。
これを行うために、俗に GPT3.5 として知られる OpenAI の text-davinci-003 モデルを使用して、Many Labs 2 レプリケーション プロジェクトの 14 件の研究のレプリケーションを実行します。
事前に登録した分析に基づいて、分析できた 8 つの研究のうち、GPT サンプルは元の結果の 37.5% と Many Labs 2 の結果の 37.5% を再現したことがわかりました。
しかし、「正解」効果と呼ばれる予期せぬ現象により、残りの 6 つの研究を分析することができませんでした。
GPT3.5 のさまざまな実行では、政治的指向、経済的嗜好、判断、道徳哲学を探る微妙な質問に対して、回答のバリエーションがゼロまたはほぼゼロで、つまり「正しい答え」と思われる回答が得られました。
ある探索的な追跡調査では、プロンプトの前にある人口統計の詳細を変更しても、「正解」は堅牢であることがわかりました。
別のケースでは、すべてではありませんが、ほとんどの「正解」が、回答の選択肢の順序の変更に対して堅牢であることがわかりました。
私たちの最も印象的な発見の 1 つは、道徳基礎理論の調査結果の再現で発生しました。そこでは、GPT3.5 が 99.6% のケースで政治的保守派として識別され、逆の場合の 99.3% でリベラル派として識別されることがわかりました。
注文条件。
しかし、自己申告による「GPT保守派」と「GPTリベラル派」はどちらも右寄りの道徳的基盤を示していた。
私たちの結果は、社会科学における人間の参加者の一般的な代替として LLM を使用することの妥当性について疑問を投げかけています。
私たちの結果はまた、AI 主導の仮想的な未来では思考の多様性が低下する可能性があるという懸念を引き起こします。
要約(オリジナル)
We test whether Large Language Models (LLMs) can be used to simulate human participants in social-science studies. To do this, we run replications of 14 studies from the Many Labs 2 replication project with OpenAI’s text-davinci-003 model, colloquially known as GPT3.5. Based on our pre-registered analyses, we find that among the eight studies we could analyse, our GPT sample replicated 37.5% of the original results and 37.5% of the Many Labs 2 results. However, we were unable to analyse the remaining six studies due to an unexpected phenomenon we call the ‘correct answer’ effect. Different runs of GPT3.5 answered nuanced questions probing political orientation, economic preference, judgement, and moral philosophy with zero or near-zero variation in responses: with the supposedly ‘correct answer.’ In one exploratory follow-up study, we found that a ‘correct answer’ was robust to changing the demographic details that precede the prompt. In another, we found that most but not all ‘correct answers’ were robust to changing the order of answer choices. One of our most striking findings occurred in our replication of the Moral Foundations Theory survey results, where we found GPT3.5 identifying as a political conservative in 99.6% of the cases, and as a liberal in 99.3% of the cases in the reverse-order condition. However, both self-reported ‘GPT conservatives’ and ‘GPT liberals’ showed right-leaning moral foundations. Our results cast doubts on the validity of using LLMs as a general replacement for human participants in the social sciences. Our results also raise concerns that a hypothetical AI-led future may be subject to a diminished diversity-of-thought.
arxiv情報
著者 | Peter S. Park,Philipp Schoenegger,Chongyang Zhu |
発行日 | 2023-09-13 07:44:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google