Artificial intelligence in psychology research

要約

大規模な言語モデルは、機能が大幅に向上しました。
このような AI システムの潜在的なアプリケーションの 1 つは、社会科学におけるデータ収集をサポートすることです。この分野では、完全な実験的制御は現在実行不可能であり、大規模で代表的なデータセットの収集は一般的に費用がかかります。
このホワイト ペーパーでは、口語的に GPT3.5 として知られる OpenAI の text-davinci-003 モデルを使用して、Many Labs 2 複製プロジェクト (Klein et al., 2018) から 14 の研究を再複製します。
分析できた 10 件の研究について、合計 10,136 の回答を収集しました。それぞれの回答は、対応する研究の調査をテキストとして入力して GPT3.5 を実行することによって得られました。
私たちの GPT3.5 ベースのサンプルは、元の結果の 30% と Many Labs 2 の結果の 30% を複製していることがわかりますが、これらの数値には不均一性があります (Many Labs 2 が再現しなかったいくつかの元の調査結果を複製するため)。
およびその逆)。
また、対応する人間の被験者とは異なり、GPT3.5 はいくつかのアンケートの質問に非常に均一に答えていることもわかりました$\unicode{x2013}$さまざまな実行の応答の変動がゼロである$\unicode{x2013}$仮説的な AI 主導の
将来は、ある意味で、思考の多様性が減少する可能性があります。
全体として、私たちの結果は大規模言語モデルの心理学研究が実行可能であることを示唆していますが、その結果を人間のケースに直接一般化すると想定すべきではありません。
それにもかかわらず、AIベースのデータ収集は、最終的には経験的社会科学において実行可能で経済的に関連する方法になり、その機能とアプリケーションの理解が中心になる可能性があります.

要約(オリジナル)

Large Language Models have vastly grown in capabilities. One potential application of such AI systems is to support data collection in the social sciences, where perfect experimental control is currently unfeasible and the collection of large, representative datasets is generally expensive. In this paper, we re-replicate 14 studies from the Many Labs 2 replication project (Klein et al., 2018) with OpenAI’s text-davinci-003 model, colloquially known as GPT3.5. For the 10 studies that we could analyse, we collected a total of 10,136 responses, each of which was obtained by running GPT3.5 with the corresponding study’s survey inputted as text. We find that our GPT3.5-based sample replicates 30% of the original results as well as 30% of the Many Labs 2 results, although there is heterogeneity in both these numbers (as we replicate some original findings that Many Labs 2 did not and vice versa). We also find that unlike the corresponding human subjects, GPT3.5 answered some survey questions with extreme homogeneity$\unicode{x2013}$with zero variation in different runs’ responses$\unicode{x2013}$raising concerns that a hypothetical AI-led future may in certain ways be subject to a diminished diversity of thought. Overall, while our results suggest that Large Language Model psychology studies are feasible, their findings should not be assumed to straightforwardly generalise to the human case. Nevertheless, AI-based data collection may eventually become a viable and economically relevant method in the empirical social sciences, making the understanding of its capabilities and applications central.

arxiv情報

著者 Peter S. Park,Philipp Schoenegger,Chongyang Zhu
発行日 2023-02-16 15:10:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.HC, I.2.7 パーマリンク