要約
AIシステムがヘルスケア、法律、ガバナンスのアプリケーションをますますナビゲートするにつれて、倫理的に複雑なシナリオをどのように処理するかを理解することが重要になります。
以前の研究では、主に、根本的な道徳的推論プロセスではなく、大規模な言語モデル(LLM)の道徳的判断を検討してきました。
対照的に、LLMSが提供する道徳的推論の痕跡の大規模な分析に焦点を当てています。
さらに、少数の道徳的ジレンマだけから推論を引き出そうとした以前の研究とは異なり、私たちの研究は、異なるLLM内で出現する推論パターンを明らかにするプローブとして600以上の異なるトロリーの問題を活用しています。
道徳的根拠の分類法を導入してテストして、2つの主要な規範的倫理理論、結果主義とデントロジーに従って推論の痕跡を体系的に分類します。
私たちの分析は、LLMの鎖の鎖が道徳的義務に基づいてデントロジカルの原則を支持する傾向があることを明らかにし、事後の説明は、特に有用性を強調する結果主義的な理論的根拠に顕著に移行します。
私たちのフレームワークは、LLMSがどのように倫理的考慮事項をプロセスし、明確にするかを理解するための基盤を提供します。これは、ハイステークスの意思決定環境におけるLLMの安全で解釈可能な展開に向けた重要なステップです。
私たちのコードは、https://github.com/keenansamway/moral-lensで入手できます。
要約(オリジナル)
As AI systems increasingly navigate applications in healthcare, law, and governance, understanding how they handle ethically complex scenarios becomes critical. Previous work has mainly examined the moral judgments in large language models (LLMs), rather than their underlying moral reasoning process. In contrast, we focus on a large-scale analysis of the moral reasoning traces provided by LLMs. Furthermore, unlike prior work that attempted to draw inferences from only a handful of moral dilemmas, our study leverages over 600 distinct trolley problems as probes for revealing the reasoning patterns that emerge within different LLMs. We introduce and test a taxonomy of moral rationales to systematically classify reasoning traces according to two main normative ethical theories: consequentialism and deontology. Our analysis reveals that LLM chains-of-thought tend to favor deontological principles based on moral obligations, while post-hoc explanations shift notably toward consequentialist rationales that emphasize utility. Our framework provides a foundation for understanding how LLMs process and articulate ethical considerations, an important step toward safe and interpretable deployment of LLMs in high-stakes decision-making environments. Our code is available at https://github.com/keenansamway/moral-lens .
arxiv情報
著者 | Keenan Samway,Max Kleiman-Weiner,David Guzman Piedrahita,Rada Mihalcea,Bernhard Schölkopf,Zhijing Jin |
発行日 | 2025-05-27 17:51:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google