Are Large Language Models Chameleons? An Attempt to Simulate Social Surveys

要約

大規模言語モデル (LLM) は社会調査をシミュレートできますか?
この質問に答えるために、私たちは LLM に主観的な質問に答えるよう求められる何百万ものシミュレーションを実施しました。
さまざまな LLM の回答を欧州社会調査 (ESS) データと比較すると、バイアスと変動に対するプロンプトの影響が根本的なものであることが示唆され、文化、年齢、性別による主要なバイアスが浮き彫りになっています。
さらに、LLM の回答と調査データの間の差異を測定するための統計的手法について議論し、LLM で生成された回答の分散が小さい可能性が高いため、Jaccard の類似性にヒントを得た新しい尺度を提案しました。
私たちの実験では、LLM の模倣能力はせいぜい近似値であるため、LLM を使用して社会調査をシミュレートする前に、プロンプトの堅牢性と変動性を分析することが重要であることも明らかにしました。

要約(オリジナル)

Can large language models (LLMs) simulate social surveys? To answer this question, we conducted millions of simulations in which LLMs were asked to answer subjective questions. A comparison of different LLM responses with the European Social Survey (ESS) data suggests that the effect of prompts on bias and variability is fundamental, highlighting major cultural, age, and gender biases. We further discussed statistical methods for measuring the difference between LLM answers and survey data and proposed a novel measure inspired by Jaccard similarity, as LLM-generated responses are likely to have a smaller variance. Our experiments also reveal that it is important to analyze the robustness and variability of prompts before using LLMs to simulate social surveys, as their imitation abilities are approximate at best.

arxiv情報

著者 Mingmeng Geng,Sihong He,Roberto Trotta
発行日 2024-10-21 17:05:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク