Can LLMs Capture Human Preferences?

要約

私たちは、時間間の選択に焦点を当てて、人間の調査回答者をエミュレートし、好みを引き出す際の大規模言語モデル (LLM)、特に OpenAI の GPT-3.5 と GPT-4 の実行可能性を調査します。
ベンチマークのための異時点間割引に関する広範な文献を活用して、さまざまな言語にわたる LLM からの応答を調査し、それを人間の応答と比較し、より小さい、より早い報酬とより大きい、より遅い報酬の間の好みを調査します。
私たちの調査結果は、どちらの GPT モデルも人間よりも忍耐力が低いことを示しており、GPT-3.5 は人間の意思決定者とは異なり、より早い報酬を辞書編集的に好むことを示しています。
GPT-4 は辞書編集上の好みを表示しませんが、測定された割引率は依然として人間で見られる割引率よりもかなり大きいです。
興味深いことに、GPT モデルは、ドイツ語や北京語など未来時制への参照が弱い言語でより高い忍耐力を示しており、言語構造と異時点間の選好との相関関係を示唆する既存の文献と一致しています。
私たちは、GPT にその決定の説明を促すこと、つまり「思考連鎖結合」と呼ぶ手順が、LLM と人間の反応の間の矛盾をどのように軽減できるが、排除することはできないかを実証します。
LLM を使用して好みを直接引き出すと誤解を招く結果が生じる可能性がありますが、思考連鎖コンジョイントとトピック モデリングを組み合わせることで仮説生成が容易になり、研究者は好みの基礎を調査できるようになります。
思考連鎖コンジョイントは、マーケティング担当者が LLM を使用して、さまざまな顧客やコンテキストにわたる嗜好の異質性を説明できる潜在的な属性や要因を特定するための構造化されたフレームワークを提供します。

要約(オリジナル)

We explore the viability of Large Language Models (LLMs), specifically OpenAI’s GPT-3.5 and GPT-4, in emulating human survey respondents and eliciting preferences, with a focus on intertemporal choices. Leveraging the extensive literature on intertemporal discounting for benchmarking, we examine responses from LLMs across various languages and compare them to human responses, exploring preferences between smaller, sooner, and larger, later rewards. Our findings reveal that both GPT models demonstrate less patience than humans, with GPT-3.5 exhibiting a lexicographic preference for earlier rewards, unlike human decision-makers. Though GPT-4 does not display lexicographic preferences, its measured discount rates are still considerably larger than those found in humans. Interestingly, GPT models show greater patience in languages with weak future tense references, such as German and Mandarin, aligning with existing literature that suggests a correlation between language structure and intertemporal preferences. We demonstrate how prompting GPT to explain its decisions, a procedure we term ‘chain-of-thought conjoint,’ can mitigate, but does not eliminate, discrepancies between LLM and human responses. While directly eliciting preferences using LLMs may yield misleading results, combining chain-of-thought conjoint with topic modeling aids in hypothesis generation, enabling researchers to explore the underpinnings of preferences. Chain-of-thought conjoint provides a structured framework for marketers to use LLMs to identify potential attributes or factors that can explain preference heterogeneity across different customers and contexts.

arxiv情報

著者 Ali Goli,Amandeep Singh
発行日 2024-02-29 18:20:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク