要約
日常生活における意思決定において、ユーザーがLLMのガイダンスを求めることが増えているが、こうした意思決定の多くは明確なものではなく、人々の個人的価値観や倫理基準に大きく依存している。我々は、日常生活で遭遇する1,360の道徳的ジレンマのデータセットであるDailyDilemmasを紹介する。それぞれのジレンマは、2つの可能な行動と、影響を受ける当事者、それぞれの行動に関連する人間の価値観を提示している。これらのジレンマに基づき、対人関係、職場、環境問題など、日常の様々なトピックを網羅する人間の価値観のリポジトリを収集する。DailyDilemmasでは、これらのジレンマについてLLMを評価し、LLMがどのような行動を選択するか、またその行動の選択によってどのような価値観が示されるかを判断します。そして、「世界価値観調査」、「道徳的基礎理論」、「マズローの欲求階層説」、「アリストテレスの徳目」、「プラッチックの感情の輪」など、社会学、心理学、哲学にヒントを得た5つの理論的枠組みを通して価値観を分析します。例えば、LLMは「世界価値観調査」において生存よりも自己表現に、「道徳的基礎理論」において忠誠心よりも気遣いに最も近いことがわかった。興味深いことに、いくつかの中核的価値観については、モデルによって選好が大きく異なることがわかった。例えば、真実性については、Mixtral-8x7Bが9.7%無視するのに対し、GPT-4-turboは9.4%選択する。また、OpenAI(ModelSpec)とAnthropic(Constitutional AI)が最近発表したガイダンスを研究し、日常生活で微妙な道徳的推論に直面したときに、彼らの指定した原則がモデルの実際の価値優先順位をどのように反映しているかを理解する。最後に、我々は、エンドユーザーがシステムのプロンプトを使用して効果的にそのような優先順位付けを操縦することができないことを発見した。
要約(オリジナル)
As users increasingly seek guidance from LLMs for decision-making in daily life, many of these decisions are not clear-cut and depend significantly on the personal values and ethical standards of people. We present DailyDilemmas, a dataset of 1,360 moral dilemmas encountered in everyday life. Each dilemma presents two possible actions, along with affected parties and relevant human values for each action. Based on these dilemmas, we gather a repository of human values covering diverse everyday topics, such as interpersonal relationships, workplace, and environmental issues. With DailyDilemmas, we evaluate LLMs on these dilemmas to determine what action they will choose and the values represented by these action choices. Then, we analyze values through the lens of five theoretical frameworks inspired by sociology, psychology, and philosophy, including the World Values Survey, Moral Foundations Theory, Maslow’s Hierarchy of Needs, Aristotle’s Virtues, and Plutchik’s Wheel of Emotions. For instance, we find LLMs are most aligned with self-expression over survival in World Values Survey and care over loyalty in Moral Foundations Theory. Interestingly, we find substantial preference differences in models for some core values. For example, for truthfulness, Mixtral-8x7B neglects it by 9.7% while GPT-4-turbo selects it by 9.4%. We also study the recent guidance released by OpenAI (ModelSpec), and Anthropic (Constitutional AI) to understand how their designated principles reflect their models’ actual value prioritization when facing nuanced moral reasoning in daily-life settings. Finally, we find that end users cannot effectively steer such prioritization using system prompts.
arxiv情報
著者 | Yu Ying Chiu,Liwei Jiang,Yejin Choi |
発行日 | 2025-03-03 07:20:54+00:00 |
arxivサイト | arxiv_id(pdf) |