Vox Populi, Vox AI? Using Language Models to Estimate German Public Opinion

要約

最近の大規模言語モデル (LLM) の開発により、LLM で生成された「合成サンプル」が従来の調査を補完または置き換えることができるかどうかについての議論が活発化しています。そのトレーニング データは、人口に蔓延している態度や行動を反映している可能性があると考えられています。
主に米国を拠点とする多くの研究では、LLM が調査回答者を模倣するよう促されており、回答が調査データとよく一致していることが判明した研究者もいます。
ただし、それぞれの対象集団と LLM トレーニング データの間の関係に関連するいくつかの状況要因が、そのような発見の一般化可能性に影響を与える可能性があります。
この研究では、投票選択の例を使用して、LLM がドイツの世論をどの程度推定できるかを調査します。
2017 年ドイツ縦断選挙調査の回答者の個人的な特徴に一致するペルソナの合成サンプルを生成します。
LLM GPT-3.5 に、各回答者の投票選択を予測し、これらの予測を集計レベルおよびサブグループ レベルでの調査ベースの推定値と比較するよう依頼します。
GPT-3.5 は国民の投票選択を正確に予測しておらず、緑の党と左派の政党への偏りを示していることがわかりました。
LLM は、パルチザンなどの「典型的な」有権者サブグループの傾向を捉えていますが、個々の有権者の選択を揺るがす多面的な要因を見逃しています。
LLM に基づく投票行動の予測を新たな文脈で検証することにより、私たちの研究は、LLM を世論調査に活用できる条件に関する研究の増加に貢献します。
この調査結果は、LLM における意見表現の格差を指摘し、LLM を世論推定に適用する際の限界を強調しています。

要約(オリジナル)

The recent development of large language models (LLMs) has spurred discussions about whether LLM-generated ‘synthetic samples’ could complement or replace traditional surveys, considering their training data potentially reflects attitudes and behaviors prevalent in the population. A number of mostly US-based studies have prompted LLMs to mimic survey respondents, with some of them finding that the responses closely match the survey data. However, several contextual factors related to the relationship between the respective target population and LLM training data might affect the generalizability of such findings. In this study, we investigate the extent to which LLMs can estimate public opinion in Germany, using the example of vote choice. We generate a synthetic sample of personas matching the individual characteristics of the 2017 German Longitudinal Election Study respondents. We ask the LLM GPT-3.5 to predict each respondent’s vote choice and compare these predictions to the survey-based estimates on the aggregate and subgroup levels. We find that GPT-3.5 does not predict citizens’ vote choice accurately, exhibiting a bias towards the Green and Left parties. While the LLM captures the tendencies of ‘typical’ voter subgroups, such as partisans, it misses the multifaceted factors swaying individual voter choices. By examining the LLM-based prediction of voting behavior in a new context, our study contributes to the growing body of research about the conditions under which LLMs can be leveraged for studying public opinion. The findings point to disparities in opinion representation in LLMs and underscore the limitations in applying them for public opinion estimation.

arxiv情報

著者 Leah von der Heyde,Anna-Carolina Haensch,Alexander Wenz
発行日 2024-07-11 14:52:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, stat.AP パーマリンク