要約
倫理的意思決定は人間の判断の重要な側面であり、意思決定サポートシステムでのLLMの使用の増加は、彼らの道徳的推論能力の厳密な評価を必要とします。
ただし、既存の評価は主にシングルステップ評価に依存しており、モデルが進化する倫理的課題にどのように適応するかを把握できません。
このギャップに対処するには、3,302の5段階ジレンマでLLMの進化する道徳的判断を評価するために特別に構築された最初のデータセットであるマルチステップモラルジレンマ(MMDS)を導入します。
このフレームワークにより、LLMSがエスカレートするジレンマ全体で道徳的推論をどのように調整するかについてのきめの細かい動的な分析を可能にします。
9つの広く使用されているLLMの評価は、ジレンマが進行するにつれて価値の好みが大きく変化することを明らかにしており、モデルがシナリオの複雑さに基づいて道徳的判断を再調整することを示しています。
さらに、ペアワイズの値の比較は、LLMがしばしばケアの価値を優先することが多いが、この値は特定のコンテキストでの公平性に置き換えることがあり、LLMの倫理的推論の動的でコンテキスト依存的な性質を強調することがあることを示しています。
私たちの調査結果は、LLMSのより人間に整合し、価値に敏感な開発のための道を開いて、動的でコンテキストを意識した評価パラダイムへの移行を求めています。
要約(オリジナル)
Ethical decision-making is a critical aspect of human judgment, and the growing use of LLMs in decision-support systems necessitates a rigorous evaluation of their moral reasoning capabilities. However, existing assessments primarily rely on single-step evaluations, failing to capture how models adapt to evolving ethical challenges. Addressing this gap, we introduce the Multi-step Moral Dilemmas (MMDs), the first dataset specifically constructed to evaluate the evolving moral judgments of LLMs across 3,302 five-stage dilemmas. This framework enables a fine-grained, dynamic analysis of how LLMs adjust their moral reasoning across escalating dilemmas. Our evaluation of nine widely used LLMs reveals that their value preferences shift significantly as dilemmas progress, indicating that models recalibrate moral judgments based on scenario complexity. Furthermore, pairwise value comparisons demonstrate that while LLMs often prioritize the value of care, this value can sometimes be superseded by fairness in certain contexts, highlighting the dynamic and context-dependent nature of LLM ethical reasoning. Our findings call for a shift toward dynamic, context-aware evaluation paradigms, paving the way for more human-aligned and value-sensitive development of LLMs.
arxiv情報
著者 | Ya Wu,Qiang Sheng,Danding Wang,Guang Yang,Yifan Sun,Zhengjia Wang,Yuyan Bu,Juan Cao |
発行日 | 2025-05-23 17:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google