Uncertainty Quantification for LLM-Based Survey Simulations

要約

調査の質問に対する人間の反応をシミュレートし、信頼できる洞察を得るために不確実性の定量化を実施するために、大規模な言語モデル(LLM)の使用を調査します。
私たちのアプローチは、不完全なLLMシミュレーション応答を、人間の反応の人口パラメーターの信頼セットに変換し、シミュレートされた集団と実際の集団間の分布シフトに対処します。
主要な革新は、シミュレートされた応答の最適数を決定することにあります。あまりにも多くの生成が多すぎると、カバレッジが不十分な狭い信頼性セットがありますが、少なすぎると過度にゆるい推定値が得られます。
これを解決するために、当社の方法はシミュレーションサンプルサイズを適応的に選択し、有効な平均ケースカバレッジ保証を保証します。
それは、その忠実度や信頼セットを構築する手順に関係なく、あらゆるLLMに広く適用されます。
さらに、選択されたサンプルサイズは、LLMとターゲットのヒト集団との間の不整合の程度を定量化します。
実際のデータセットとLLMでの方法を説明します。

要約(オリジナル)

We investigate the use of large language models (LLMs) to simulate human responses to survey questions, and perform uncertainty quantification to gain reliable insights. Our approach converts imperfect LLM-simulated responses into confidence sets for population parameters of human responses, addressing the distribution shift between the simulated and real populations. A key innovation lies in determining the optimal number of simulated responses: too many produce overly narrow confidence sets with poor coverage, while too few yield excessively loose estimates. To resolve this, our method adaptively selects the simulation sample size, ensuring valid average-case coverage guarantees. It is broadly applicable to any LLM, irrespective of its fidelity, and any procedure for constructing confidence sets. Additionally, the selected sample size quantifies the degree of misalignment between the LLM and the target human population. We illustrate our method on real datasets and LLMs.

arxiv情報

著者 Chengpiao Huang,Yuhang Wu,Kaizheng Wang
発行日 2025-05-16 15:19:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ME パーマリンク