Using Large Language Models to Simulate Multiple Humans and Replicate Human Subject Studies

要約

GPT モデルなどの特定の言語モデルが人間の行動のさまざまな側面をどの程度シミュレートできるかを評価するために、チューリング実験 (TE) と呼ばれる新しいタイプのテストを導入します。
TE は、特定の人間の行動の言語モデルのシミュレーションにおける一貫した歪みを明らかにすることもできます。
任意の 1 人の個人をシミュレートするチューリング テストとは異なり、TE では人間を対象とした研究の参加者の代表的なサンプルをシミュレートする必要があります。
私たちは、以前の研究で確立された知見を再現しようとする TE を実行します。
TE をシミュレートするための方法論を設計し、さまざまな言語モデルが古典的な経済学、心理言語学、社会心理学の実験 (最後通牒ゲーム、ガーデン パス センテンス、ミルグラム ショック実験、および群集の知恵) をどの程度うまく再現できるかを比較するためのその使用法を示します。
最初の 3 つの TE では、既存の発見が最近のモデルを使用して再現されましたが、最後の TE では、一部の言語モデル (ChatGPT や GPT-4 を含む) に存在する「超精度の歪み」が明らかになり、教育や教育における下流のアプリケーションに影響を与える可能性があります。
芸術。

要約(オリジナル)

We introduce a new type of test, called a Turing Experiment (TE), for evaluating to what extent a given language model, such as GPT models, can simulate different aspects of human behavior. A TE can also reveal consistent distortions in a language model’s simulation of a specific human behavior. Unlike the Turing Test, which involves simulating a single arbitrary individual, a TE requires simulating a representative sample of participants in human subject research. We carry out TEs that attempt to replicate well-established findings from prior studies. We design a methodology for simulating TEs and illustrate its use to compare how well different language models are able to reproduce classic economic, psycholinguistic, and social psychology experiments: Ultimatum Game, Garden Path Sentences, Milgram Shock Experiment, and Wisdom of Crowds. In the first three TEs, the existing findings were replicated using recent models, while the last TE reveals a ‘hyper-accuracy distortion’ present in some language models (including ChatGPT and GPT-4), which could affect downstream applications in education and the arts.

arxiv情報

著者 Gati Aher,Rosa I. Arriaga,Adam Tauman Kalai
発行日 2023-07-09 18:27:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク