Evaluating the Bias in LLMs for Surveying Opinion and Decision Making in Healthcare

要約

生成エージェントは、大規模な言語モデル(LLM)によって駆動される、シリコでの人間の行動をシミュレートするためにますます使用されてきました。
これらのSimulacraは、プライバシーや安全性を損なうことなく、人間の行動を研究するためのサンドボックスとして機能します。
ただし、そのようなエージェントが実際の個人を本当に表すことができるかどうかは不明のままです。
この作業では、ヘルスケアの意思決定に関するUnderstanding America Study(UAS)の調査データと、生成エージェントからのシミュレートされた回答と比較されます。
人口統計ベースのプロンプトエンジニアリングを使用して、調査回答者のデジタルツインを作成し、LLMが実際の行動をどの程度うまく再現するかを分析します。
私たちの調査結果は、一部のLLMが普遍的なワクチンの受け入れを予測するなど、現実的な意思決定を反映していないことを示しています。
ただし、Llama 3は、人種と収入全体のバリエーションをより正確にキャプチャしますが、UASデータに存在しないバイアスも導入します。
この研究は、LLMSのバイアスのリスクと促進戦略のリスクを強調しながら、行動研究のための生成エージェントの可能性を強調しています。

要約(オリジナル)

Generative agents have been increasingly used to simulate human behaviour in silico, driven by large language models (LLMs). These simulacra serve as sandboxes for studying human behaviour without compromising privacy or safety. However, it remains unclear whether such agents can truly represent real individuals. This work compares survey data from the Understanding America Study (UAS) on healthcare decision-making with simulated responses from generative agents. Using demographic-based prompt engineering, we create digital twins of survey respondents and analyse how well different LLMs reproduce real-world behaviours. Our findings show that some LLMs fail to reflect realistic decision-making, such as predicting universal vaccine acceptance. However, Llama 3 captures variations across race and Income more accurately but also introduces biases not present in the UAS data. This study highlights the potential of generative agents for behavioural research while underscoring the risks of bias from both LLMs and prompting strategies.

arxiv情報

著者 Yonchanok Khaokaew,Flora D. Salim,Andreas Züfle,Hao Xue,Taylor Anderson,Matthew Scotch,David J Heslop
発行日 2025-04-11 05:11:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク