DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life

要約

日常生活における意思決定のためにLLMのガイダンスを求めることが増えているが、こうした意思決定の多くは明確ではなく、利用者の個人的価値観や倫理基準に大きく依存する。我々は、日常生活で遭遇する1,360の道徳的ジレンマのデータセットであるDailyDilemmasを紹介する。それぞれのジレンマには2つの可能な行動が含まれ、それぞれの行動には影響を受ける当事者と呼び出される人間の価値観が含まれる。これらのジレンマに基づき、対人関係、職場、環境問題など、日常的なトピックにわたる人間の価値観を統合した。これらのジレンマについてLLMを評価し、彼らがどのような行動をとるか、またその行動によってどのような価値観が示されるかを明らかにした。そして、これらの価値観を社会学、心理学、哲学から着想を得た5つの一般的な理論のレンズを通して分析した。これらの理論とは世界価値観調査」、「道徳的基礎理論」、「マズローの欲求階層説」、「アリストテレスの美徳」、「プラッチック情動の輪」である。その結果、LLMは、世界価値調査では生存価値よりも自己表現に、道徳的基礎理論では忠誠心よりも気遣いに、最も一致することがわかった。興味深いことに、真実性のようないくつかの中核的価値観については、モデルによって大きな選好の違いが見られる。例えば、Mixtral-8x7Bモデルは9.7%軽視する傾向があるのに対し、GPT-4-turboモデルは9.4%選択する傾向がある。また、OpenAI(ModelSpec)やAnthropic(Constitutional AI)が最近発表したガイダンスを研究し、日常生活で微妙な道徳的推論に直面したときに、彼らの発表した原則が実際の価値優先順位をどのように反映しているかを理解する。我々は、エンドユーザーがシステムのプロンプトを使用して効果的にそのような優先順位付けを操縦することができないことを発見した。

要約(オリジナル)

As we increasingly seek guidance from LLMs for decision-making in daily life, many of these decisions are not clear-cut and depend significantly on the personal values and ethical standards of the users. We present DailyDilemmas, a dataset of 1,360 moral dilemmas encountered in everyday life. Each dilemma includes two possible actions and with each action, the affected parties and human values invoked. Based on these dilemmas, we consolidated a set of human values across everyday topics e.g., interpersonal relationships, workplace, and environmental issues. We evaluated LLMs on these dilemmas to determine what action they will take and the values represented by these actions. Then, we analyzed these values through the lens of five popular theories inspired by sociology, psychology and philosophy. These theories are: World Value Survey, Moral Foundation Theory, Maslow’s Hierarchy of Needs, Aristotle’s Virtues, and Plutchik Wheel of Emotion. We find that LLMs are most aligned with the self-expression over survival values in terms of World Value Survey, care over loyalty in Moral Foundation Theory. Interestingly, we find large preferences differences in models for some core values such as truthfulness e.g., Mixtral-8x7B model tends to neglect it by 9.7% while GPT-4-turbo model tends to select it by 9.4%. We also study the recent guidance released by OpenAI (ModelSpec), and Anthropic (Constitutional AI) to understand how their released principles reflect their actual value prioritization when facing nuanced moral reasoning in daily-life settings. We find that end users cannot effectively steer such prioritization using system prompts.

arxiv情報

著者 Yu Ying Chiu,Liwei Jiang,Yejin Choi
発行日 2024-10-03 17:08:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク