Using Large Language Models to Simulate Multiple Humans and Replicate Human Subject Studies

要約

GPT-3 などの言語モデルが人間の行動のさまざまな側面をどの程度シミュレートできるかを評価するために、チューリング実験 (TE) と呼ばれる新しいタイプのテストを導入します。
単一の任意の個人をシミュレートすることを含むチューリング テストとは異なり、TE では、人間を対象とした研究の参加者の代表的なサンプルをシミュレートする必要があります。
以前の研究で確立された調査結果を再現しようとする TE を提供します。
TE をシミュレートするための方法論を設計し、さまざまな言語モデルが古典的な経済、心理言語学、および社会心理学の実験をどの程度再現できるかを比較するために、その使用法を説明します。
最初の 3 つの TE では、既存の調査結果が最近のモデルを使用して複製されましたが、最後の TE では、一部の言語モデルに存在する「超精度の歪み」が明らかになりました。

要約(オリジナル)

We introduce a new type of test, called a Turing Experiment (TE), for evaluating how well a language model, such as GPT-3, can simulate different aspects of human behavior. Unlike the Turing Test, which involves simulating a single arbitrary individual, a TE requires simulating a representative sample of participants in human subject research. We give TEs that attempt to replicate well-established findings in prior studies. We design a methodology for simulating TEs and illustrate its use to compare how well different language models are able to reproduce classic economic, psycholinguistic, and social psychology experiments: Ultimatum Game, Garden Path Sentences, Milgram Shock Experiment, and Wisdom of Crowds. In the first three TEs, the existing findings were replicated using recent models, while the last TE reveals a ‘hyper-accuracy distortion’ present in some language models.

arxiv情報

著者 Gati Aher,Rosa I. Arriaga,Adam Tauman Kalai
発行日 2023-02-14 05:02:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク