Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations

要約

大規模な調査は、社会科学の研究と政策を通知するための不可欠なツールですが、ランニング調査は費用がかかり、時間型であります。
したがって、グループレベルの調査結果を正確にシミュレートできれば、これは社会科学研究にとって非常に価値があります。
以前の研究では、主にプロンプ​​トを通じて人間の行動をシミュレートするための大規模な言語モデル(LLM)の使用を調査しました。
この論文では、調査対応の分布をシミュレートするタスクのためにLLMSを専門化する最初の人です。
テストベッドとして、2つのグローバルな文化的調査からの国レベルの結果を使用しています。
特定の質問の予測された応答分布と実際の応答分布との相違を最小限に抑えるために、最初のトークンの確率に基づいて微調整方法を考案します。
次に、目に見えない質問、国、完全に目に見えない調査でさえ、この方法は他の方法とゼロショット分類器を大幅に上回ることを示します。
私たちの最高のモデルでさえ、特に目に見えない質問でタスクと格闘していますが、私たちの結果はシミュレーションの専門化の利点を示しています。

要約(オリジナル)

Large-scale surveys are essential tools for informing social science research and policy, but running surveys is costly and time-intensive. If we could accurately simulate group-level survey results, this would therefore be very valuable to social science research. Prior work has explored the use of large language models (LLMs) for simulating human behaviors, mostly through prompting. In this paper, we are the first to specialize LLMs for the task of simulating survey response distributions. As a testbed, we use country-level results from two global cultural surveys. We devise a fine-tuning method based on first-token probabilities to minimize divergence between predicted and actual response distributions for a given question. Then, we show that this method substantially outperforms other methods and zero-shot classifiers, even on unseen questions, countries, and a completely unseen survey. While even our best models struggle with the task, especially on unseen questions, our results demonstrate the benefits of specialization for simulation, which may accelerate progress towards sufficiently accurate simulation in the future.

arxiv情報

著者 Yong Cao,Haijiang Liu,Arnav Arora,Isabelle Augenstein,Paul Röttger,Daniel Hershcovich
発行日 2025-02-19 15:05:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク