要約
大規模な言語モデル(LLM)による効果的なエンゲージメントには、年齢、職業、教育レベルなどのユーザーの社会人口学的特性への応答を適応させる必要があります。
多くの現実世界のアプリケーションは、コンテキスト化のために対話履歴を活用していますが、LLMSの行動適応の既存の評価は、しばしば単一ターンプロンプトに焦点を当てています。
この論文では、属性が(1)プロンプトのユーザープロファイルを介して明示的に、または(2)マルチターンダイアログ履歴を介して暗黙的に導入された場合にLLM適応を評価するためのフレームワークを提案します。
これらのモダリティ全体でモデルの動作の一貫性を評価します。
マルチエージェントパイプラインを使用して、個別のユーザープロファイルを使用した合成データセットペアリングダイアログの履歴を構築し、価値調査モジュール(VSM 2013)(Hofstede and Hofstede、2016)から質問を採用して、値の表現をプローブします。
私たちの調査結果は、ほとんどのモデルが人口統計学的変化、特に年齢と教育レベルに応じて表現された値を調整することを示していますが、一貫性は異なります。
推論能力が強いモデルは、より大きな整合性を示しており、堅牢な社会人口学的適応における推論の重要性を示しています。
要約(オリジナル)
Effective engagement by large language models (LLMs) requires adapting responses to users’ sociodemographic characteristics, such as age, occupation, and education level. While many real-world applications leverage dialogue history for contextualization, existing evaluations of LLMs’ behavioral adaptation often focus on single-turn prompts. In this paper, we propose a framework to evaluate LLM adaptation when attributes are introduced either (1) explicitly via user profiles in the prompt or (2) implicitly through multi-turn dialogue history. We assess the consistency of model behavior across these modalities. Using a multi-agent pipeline, we construct a synthetic dataset pairing dialogue histories with distinct user profiles and employ questions from the Value Survey Module (VSM 2013) (Hofstede and Hofstede, 2016) to probe value expression. Our findings indicate that most models adjust their expressed values in response to demographic changes, particularly in age and education level, but consistency varies. Models with stronger reasoning capabilities demonstrate greater alignment, indicating the importance of reasoning in robust sociodemographic adaptation.
arxiv情報
著者 | Qishuai Zhong,Zongmin Li,Siqi Fan,Aixin Sun |
発行日 | 2025-05-27 15:52:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google