Analyzing the Ethical Logic of Six Large Language Models

要約

この研究では、6 つの著名な生成大規模言語モデル (OpenAI GPT-4o、Meta LLaMA 3.1、Perplexity、Anthropic Claude 3.5 Sonnet、Google Gemini、Mistral 7B) の倫理的推論を検証します。
この研究では、特にトロッコ問題やハインツのジレンマなどの道徳的ジレンマに対応して、これらのモデルがどのように倫理的ロジックを明確にして適用するかを調査しています。
この研究は、従来のアライメント研究とは異なり、説明可能性と透明性のフレームワークを採用し、モデルに倫理的推論の説明を促します。
このアプローチは、帰結主義・義務論的分析、道徳基礎理論、コールバーグ道徳発達段階モデル​​という 3 つの確立された倫理類型論を通じて分析されます。
調査結果によると、LLM は合理主義的、結果主義的な強調によって特徴付けられる、主に収束的な倫理論理を示し、意思決定では害の最小化と公平性が優先されることが多いことが明らかになりました。
トレーニング前とモデルのアーキテクチャは類似しているにもかかわらず、倫理的推論には微妙な違いと重大な違いが混在しており、これは微調整プロセスとトレーニング後のプロセスの違いを反映してモデル全体で現れています。
モデルは一貫して博学さ、慎重さ、自己認識を示し、道徳哲学における大学院レベルの議論に似た倫理的推論を提示します。
驚くべき統一性において、これらのシステムはすべて、その倫理的推論が、典型的な人間の道徳的論理の特徴よりも洗練されたものであると説明しています。

要約(オリジナル)

This study examines the ethical reasoning of six prominent generative large language models: OpenAI GPT-4o, Meta LLaMA 3.1, Perplexity, Anthropic Claude 3.5 Sonnet, Google Gemini, and Mistral 7B. The research explores how these models articulate and apply ethical logic, particularly in response to moral dilemmas such as the Trolley Problem, and Heinz Dilemma. Departing from traditional alignment studies, the study adopts an explainability-transparency framework, prompting models to explain their ethical reasoning. This approach is analyzed through three established ethical typologies: the consequentialist-deontological analytic, Moral Foundations Theory, and the Kohlberg Stages of Moral Development Model. Findings reveal that LLMs exhibit largely convergent ethical logic, marked by a rationalist, consequentialist emphasis, with decisions often prioritizing harm minimization and fairness. Despite similarities in pre-training and model architecture, a mixture of nuanced and significant differences in ethical reasoning emerge across models, reflecting variations in fine-tuning and post-training processes. The models consistently display erudition, caution, and self-awareness, presenting ethical reasoning akin to a graduate-level discourse in moral philosophy. In striking uniformity these systems all describe their ethical reasoning as more sophisticated than what is characteristic of typical human moral logic.

arxiv情報

著者 W. Russell Neuman,Chad Coleman,Manan Shah
発行日 2025-01-15 16:56:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY パーマリンク