The Moral Mind(s) of Large Language Models

要約

大規模な言語モデル(LLM)が倫理的および社会的利害関係のあるタスクにますます参加するにつれて、重要な疑問が生じます。彼らは、彼らの決定を導く道徳的な好みの一貫した構造であり、この構造はモデル間でどの程度共有されているかを示していますか?
これを調査するために、明らかにされた選好理論から40近くの主要なLLMにツールを適用し、それぞれに倫理的推論の5つの基本的な側面にまたがる多くの構造化された道徳的ジレンマを提示しました。
確率的合理性テストを使用して、各主要なプロバイダーの少なくとも1つのモデルが、ほぼ安定した道徳的好みと一致する行動を示すことを発見し、基礎となるユーティリティ機能に導かれたように機能します。
次に、これらのユーティリティ関数を推定し、ほとんどのモデルが中立の道徳的スタンスを把握することを発見しました。
不均一性をさらに特徴付けるために、ノンパラメトリック順列アプローチを採用し、明らかにされた優先パターンに基づいて確率的類似性ネットワークを構築しました。
結果は、LLMSの道徳的推論に共有されたコアを明らかにしていますが、意味のあるバリエーションもあります。一部のモデルは、視点を越えて柔軟な推論を示していますが、他のモデルはより厳格な倫理的プロファイルを順守しています。
これらの発見は、LLMSの道徳的一貫性を評価するための新しい経験的レンズを提供し、AIシステム全体で倫理的アライメントをベンチマークするためのフレームワークを提供します。

要約(オリジナル)

As large language models (LLMs) increasingly participate in tasks with ethical and societal stakes, a critical question arises: do they exhibit an emergent ‘moral mind’ – a consistent structure of moral preferences guiding their decisions – and to what extent is this structure shared across models? To investigate this, we applied tools from revealed preference theory to nearly 40 leading LLMs, presenting each with many structured moral dilemmas spanning five foundational dimensions of ethical reasoning. Using a probabilistic rationality test, we found that at least one model from each major provider exhibited behavior consistent with approximately stable moral preferences, acting as if guided by an underlying utility function. We then estimated these utility functions and found that most models cluster around neutral moral stances. To further characterize heterogeneity, we employed a non-parametric permutation approach, constructing a probabilistic similarity network based on revealed preference patterns. The results reveal a shared core in LLMs’ moral reasoning, but also meaningful variation: some models show flexible reasoning across perspectives, while others adhere to more rigid ethical profiles. These findings provide a new empirical lens for evaluating moral consistency in LLMs and offer a framework for benchmarking ethical alignment across AI systems.

arxiv情報

著者 Avner Seror
発行日 2025-04-25 15:47:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY パーマリンク